决策树和随机森林

决策树->随机森林;
随机森林的难点是如何建立决策树;
根节点ROOT:1,2,3。。。N个样本,给定规则(选取特征)给ROOT进行分类,假设分成C_1,C_2,如果是连续直接分类,如果是连续,那么给定阈值进行分类,递归形成的树,即是决策树,多个决策树即形成随机森林;
决策树:CART:classification and regression tree;
决策树:训练速度快,使用场景多;
熵是度量随机变量不确定性的量,越小随机性越小,越大表示随机性越大,也可表示其蕴含的信息量;
事件发生的概率越小,其蕴含的信息量越大,熵越大;
香浓定理:信息熵, H=ni=1pilogpi
H(X),H(Y),H(X,Y)

条件熵:
H(Y|X)=H(X,Y)-H(X)= x,yp(x,y)logp(y|x)=xp(x)H(Y|X=x)

给定均值后:均匀分布熵最大;
给定均值和方差后:正态分布熵最大;

相对熵:互熵,交叉熵,鉴别信息,kullback熵,kullback-leible散度;
用来度量两个随机变量的距离;

p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵是:
D(p||q)=xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)

互信息:两个随机变量X,Y的互信息,定义为X,Y的连个分布和独立分布乘积的相对熵;
I(X,Y)=D(P(X,Y)||P(X)P(Y))= x,yp(x,y)logp(x,y)p(x)p(y)

H(Y)-I(X,Y)=H(Y|X)
I(X,Y)=H(X)+H(Y)-H(X,Y)

H(X|Y)<=H(X);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值