决策树、随机森林——理论、实践
手写理论
【CART classification & regression tree】
【决策树示意图】
决策树
条件熵
推导条件熵的定义式
熵越大,不确定性越大。某件事情发生的概率为1或者为0,那这个事件的熵为0。
从上到下建立一个熵不断减小的树。
P
(
Y
∣
X
)
=
P
(
X
∣
Y
)
P
(
X
)
P(Y|X)=\frac{P(X|Y)}{P(X)}
P(Y∣X)=P(X)P(X∣Y)
条件熵:H(X|Y)-H(X)
●(X,Y)发生所包含的熵,减去X单独发生包含的熵:在X发生的前提下,Y发生“新”带来的熵
●该式子定义为X发生前提下,Y的熵:条件熵 H(Y|X)
相对熵
【互信息】
●两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
●
I
(
X
,
Y
)
=
D
(
P
(
X
,
Y
)
∣
∣
P
(
X
)
P
(
Y
)
)
I(X,Y)=D(P(X,Y)||P(X)P(Y))
I(X,Y)=D(P(X,Y)∣∣P(X)P(Y))
I
(
X
,
Y
)
=
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
I(X,Y)=∑x,yp(x,y)logp(x)p(y)p(x,y)
交叉熵:可以度量两个随机变量的“距离”
●相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-leible散度等。
●设p(x),p(y)是X中的两个概率分布,则p对q的相对熵是
D
(
p
∣
∣
q
)
=
∑
x
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
=
E
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
D(p||q)=\sum_xp(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)}
D(p∣∣q)=∑xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)
决策树学习算法的特点
【决策树学习的生成算法】
信息增益\信息增益率\基尼系数
【基本记号】
【信息增益的计算方法】
【经验条件熵】
【其他目标】
PS:基尼系数越小表示集合中被选中的样本被错分的概率越小,也就是说集合的纯度越高。基尼系数越小,数据的不确定性越小,基尼系数为0,数据集中所有样本都是同一类别。
【三种决策树算法】
决策树的评价
【决策树的过拟合】
Bagging策略
【OOB数据】
随机森林(Random Forest)
样本不均衡的常用处理方法:
使用RF计算样本间相似度
【使用RF计算样本间相似度】
【使用RF计算特征重要度】