熵理解及决策树算法

最新推荐文章于 2023-07-03 00:47:03 发布

howardact

最新推荐文章于 2023-07-03 00:47:03 发布

阅读量1.1k

点赞数 1

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/52984358

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

１、熵及条件熵

1.1熵

熵（entropy）代表随机变量的不确定性，熵越大随机变量的不确定性就越大，就越混乱，自然状态下向着熵值增加的方向发展。

熵值大->不确定性大（p值越小）->混乱程度大.

$依据 B o l t z m a n n^{'} s H - t h e o r e m ，香农把随机变量 X 的熵值 H （希腊字母 E t a ）定义如下，其值域为 x 1, . . ., x n ：$

$\mathrm {H} (p)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))]$

$其中， P 为 X 的概率质量函数（ p r o b a b i l i t y m a s s f u n c t i o n ）， E 为期望函数，而 I (X) 是 X 的信息量（又称为自信息）。 I (X) 本身是个随机变数。$

当取自有限的样本时，熵的公式可以表示为：

$\mathrm {H} (p)=\sum _{x}{\mathrm {p} (x)\,\mathrm {I} (x)}=-\sum _{i}{\mathrm {p} (x)\log _{b}\mathrm {p} (x)}$
在这里b是对数所使用的底，通常是2,自然常数e，或是10。当b = 2，熵的单位是bit；当b = e，熵的单位是nat；而当b = 10,熵的单位是Hart。

1、熵能看作随机变量的信息量的期望，与随机变量的取值无关，只与概率有关
2、X代表整个随机变量，x代表某个具体的值

![抛硬币的熵H(X)（即期望自信息，以比特度量，与之相对的是硬币的公正度Pr(X=1).注意图的最大值取决于分布；在这里，要传达一个公正的抛硬币结果至多需要1比特，但要传达一个公正的抛骰子结果至多需要log2(6)比特。]
(https://upload.wikimedia.org/wikipedia/commons/thumb/2/22/Binary_entropy_plot.svg/200px-Binary_entropy_plot.svg.png)
抛硬币的熵H(X)（即期望自信息，以比特度量，与之相对的是硬币的公正度Pr(X=1).注意图的最大值取决于分布；在这里，要传达一个公正的抛硬币结果至多需要1比特，但要传达一个公正的抛骰子结果至多需要log2(6)比特。

1.2交叉熵

对于离散分布$ {\displaystyle p} 和 {\displaystyle q} ，$其中p为真实分布，q非真实分布, 这意味着：
$H(p,q)=-\sum _{x}p(x)\,\log q(x).\!$
根据Gibbs’ inequality可知,H(p,q)>=H§恒成立，当q为真实分布p时取等号。

交叉熵是度量两个概率分布的统计量。差异越大，交叉熵越大；差异越小则交叉熵越小

KL散度(Kullback–Leibler divergence，KLD)
$D(p||q)=H(p,q)-H(p)=\sum_{x}^{} p(x)*log\frac{p(x)}{q(x)}$

PSI（population stability index）

$=\sum(p_{actual}-q_{excepted})\times ln(\frac{p_{actual}}{q_{excepted}})$
$PSI = KL(p_{actual},q_{excepted}) + KL(q_{excepted},p_{actual})$

一般认为PSI小于0.1时候模型稳定性很高，0.1-0.2一般，需要进一步研究，大于0.2模型稳定性差，建议修复

IV (information value)

$设p_{good}为在该变量分组下的好样本的分布，q_{bad}为坏样本的分布，得iv值的计算公式为：$
$KL(p_{good},q_{bad})+KL(q_{bad},p_{bad})$

https://blog.csdn.net/shenxiaoming77/article/details/78771698

psi 和IV值本质上是一直的，都是看二维随机变量的分布稳定性情况，PSI是不同时间之间的稳定性，IV值是好坏群体间的稳定性

1.3 困惑度（Perplexity)

对于随机变量X，其困惑度为：
$b^{H(p)}=b^{-\sum_{x}p(x)log(p(x))}$

$\sum_{x}p(x)=1$

概率模型困惑度
$b^{{-{\frac {1}{N}}\sum _{{i=1}}^{N}H(p,q)}}$
$H(p,q)=-\sum _{x}p(x)\,\log_{b} q(x)$
$p(x)中只有一个值为1,其对应的预测概率为q(x_i)，其余值为0，所以H(p,q)=-\log_{b}q(x_i)$

$b^{{-{\frac {1}{N}}\sum _{{i=1}}^{N}\log _{b}q(x_{i})}}$

N为预测数据集合样本数， $q(x_i)$ 为真实值对应的预测概率

1.4条件熵

条件熵定义
$H(Y|X)=-\sum_{x \in X}p(x)H(Y|X=x)\tag{1.2.1}$
条件熵的三个推论
$H(Y|X)=-\sum_{x \in X,y\in Y}p(x,y)log\ p(y|x)\tag{1.2.2}$
$H(Y|X)=H(Y,X)-H(X)\tag{1.2.3}$
$H(X,Y)=H(Y|X)+H(X)=H(X|Y)+H(Y)\tag{1.2.4}$
推论的证明
\begin{eqnarray}
H(Y|X)&=&-\sum_{x \in X}p(x)H(Y|X=x)
\
&=&-\sum_{x \in X}p(x)\sum_{y \in Y}H(y|x)\tag{1.2.5}
\
&=&-\sum_{x \in X}p(x)\sum_{y \in Y}p(y|x)log\ p(y|x)\tag{1.2.6}
\
&=&-\sum_{x \in X,y\in Y}p(x,y)log\ p(y|x)\tag{1.2.7}
\
&=&-\sum_{x \in X,y\in Y}p(x,y)log\ \frac{p(y,x)}{p(x)}\tag{1.2.8}
\
&=&-\left[\sum_{x \in X,y\in Y}p(x,y)log\ p(y,x)-\sum_{x \in X,y\in Y}p(x,y)log\ p(x)\right]\tag{1.2.9}
\
&=&-\left[\sum_{x \in X,y\in Y}p(x,y)log\ p(y,x)-\sum_{x \in X}p(x)log\ p(x)\right]\tag{1.2.10}
\
&=&H(Y,X)-H(X)\tag{1.2.11}
\end{eqnarray}

1.2.6推导1.2.7利用如下：
$\sum_{x \in X}p(x)\sum_{y \in Y}p(y|x)=\sum_{x \in X,y\in Y}p(y,x)$
1.2.9推导1.2.10利用如下：
$\sum_{x \in X}\sum_{y \in Y}p(x,y)=\sum_{x \in X}p(x)$

1.3、互信息

互信息的定义：
$I(X;Y)=\sum_{x \in X}\sum_{y \in Y}p(x,y)log\left(\frac{p(x,y)}{p(x)\cdot p(y)}\right)\tag{1.3.1}$
互信息的推论：
\begin{eqnarray} I(X;Y) &=& H(X) - H(X|Y) \ &=& H(Y) - H(Y|X) \ &=& H(X) + H(Y) - H(X,Y) \ &=& H(X,Y) - H(X|Y) - H(Y|X) \end{eqnarray}
推论的证明：
\begin{eqnarray}
\
I(X;Y)&=&\sum_{x \in X}\sum_{y \in Y}p(x,y)log\left(\frac{p(x,y)}{p(x)\cdot p(y)}\right)
\
&=&\sum_{x \in X}\sum_{y \in Y}p(x,y)log\left(\frac{p(x|y)\cdot p(y)}{p(x)\cdot p(y)}\right)
\
&=&\sum_{x \in X}\sum_{y \in Y}p(x,y)log\left(\frac{p(x|y)}{p(x)}\right)
\
&=&\sum_{x \in X}\sum_{y \in Y}p(x,y)log\ p(x|y)-\sum_{x \in X}p(x)log\ p(x)
\
&=&H(X)-H(X|Y)
\end{eqnarray}

互信息代表两者之间的关联性，关联性越强者互信息越大

定义度量方式 $d (X, Y) 代表两个随机变量的距离$
$d (X, Y) = H (X, Y) - I (X; Y)$
或者将其正则化，成为D(X,Y)
$D(X,Y)=\frac{d(X,Y)}{H(X,Y)}$

2、信息增益

$特征 A 对训练数据集 D 的信息增益 g (D, A) :$
$g(D,A)=H(D)-H(D|A)\tag{2.1}$

$信息增益大的特征具有更强的分类能力，因为信息增益大，所以 H (D ∣ A) 就小，就是在特征 A 的条件下 D 的分类不确定性小，混乱程度低。$

$H(D)=-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}log\frac{|C_{k}|}{|D|}\tag{2.2}$

$H(D|A)=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}H(D_{i})=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\left(-\sum_{k=1}^{K}\frac{|D_{ik}|}{D_{i}}log\frac{|D_{ik}|}{D_{i}}\right)\tag{2.3}$

$训练数据集为D，|D|为其样本容量，设有K个类C_{k},|C_{k}|为属于类C_{k}的样本数。$
$设特征A有n个不同的取值{a_{1},...a_{n}},根据A的取值将D划分为n个子集D_{1},....,D_{n},|D_{i}|为D_{i}样本个数。$
$子集D_{i}中属于类C_{k}中的样本集合为D_{ik}$

3、信息增益比

$g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}\tag{3.1}$
$H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}log\frac{|D_{i}|}{|D|}\tag{3.2}$

#4、CART（classification and regression）
##4.1、基尼指数
对于给定的样本集合D，其基尼指数为：
$Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^{2}\tag{4.1.1}$

$Gini(D,A)=\sum_{i=1}^{K}\frac{|D_{i}|}{|D|}Gini(D_{i})=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\left(1-\sum_{k=1}^{K}\left(\frac{|D_{ik}|}{|D_{i}|}\right)^{2}\right)\tag{4.1.2}$

如果是二叉树，则同一特征在不同子树中可进行不同标准的多次分裂。

4.2、回归树（Regression Tree）

4.2.1 最小二乘回归树生成算法

$1 、选择最优切分变量 j 与切分点 s, 求解$

$\underset{j,s}{min}\left [\underset{c_{1}}{min}\sum_{x_{i}\in R_{1}(j,s)}(y_{i}-c_{1})^2 +\underset{c_{2}}{min}\sum_{x_{i}\in R_{2}(j,s)}(y_{i}-c_{2})^2 \right]$

$遍历变量 j (自变量 X 的维度) ，对固定的切分变量 j 扫描切分点 s ，选择使上式达到最小值的 (j, s)$
$在自变量X的第j维度，x_{j}\leqslant s的数据为R_{1}空间，模型的拟合值为c_{1},残差为R_{1}空间的y值与c_{1}值的差，即：r_{i}=y_{i}-c_{1}\ x_{i}\in R_{1}(j,s)$
$在自变量X的第j维度，\ x_{j}>s的数据为R_{2}空间，模型的拟合值为c_{2},残差为R_{2}空间的y值与c_{2}值的差，即：r_{i}=y_{i}-c_{2}\ x_{i}\in R_{2}(j,s)$
$此式为双重循环，首先在自变量的维度 j ，然后在此维度下寻找最合适的 s 。$

$y_{i}-c_{1})^2,y_{i}-c_{2})^2为损失函数。$
$\frac{1}{2}(y − f(x))^2即残差的平方和，所以为最小二次回归树$
$绝对值损失 L (y, f (x)) = ∣ y - f (x) ∣$
huber 损失： $\ loss: L(y,f(x))=\left\{\begin{matrix} \frac{1}{2}(y-f(x))^2 & |y-f(x)|<=\delta \\ \delta(|y-f(x)|-\delta/2) & |y-f(x)|>\delta\end{matrix}\right.$

$2 、用选定的 (j, s) ，划分区域并决定相应的输出值：$
$R_{1}(j,s)=\{x|x^{j}\leqslant s\}$
$R_{2}(j,s)=\{x|x^{j}> s\}$
$\hat{c_{m}}=\frac{1}{N_{m}}\sum_{x_{i}\in R_{m}(j,s)}y_{i} \ , \ m=1,2$
3、继续对两个子区域调用步骤1，2直至满足停止条件
$4、将输入空间划分为M个区域R_{1},R_{2},...,R_{M}，生成决策树：$
$f(x)=\sum_{m=1}^{M}\hat{c_{m}}I\ (x\in R_{m})$

![这里写图片描述](https://img-blog.csdn.net/20161115120515855)

#参考文献

howardact

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
熵理解及决策树算法

１、熵及条件熵1.1熵熵（entropy）代表随机变量的不确定性，熵越大随机变量的不确定性就越大，就越混乱，自然状态下向着熵值增加的方向发展。熵值大-&amp;amp;amp;amp;gt;不确定性大（p值越小）-&amp;amp;amp;amp;gt;混乱程度大.依据Boltzmann′sH−theorem，香农把随机变量X的熵值Η（希腊字母Eta）定义如下，其值域为x1,...,xn：依据Boltzmann′sH−theor...
复制链接

扫一扫