西瓜书学习：决策树（4.1-4.2）笔记

最新推荐文章于 2022-04-12 20:19:33 发布

haimianjie2012

最新推荐文章于 2022-04-12 20:19:33 发布

阅读量505

点赞数

分类专栏：机器学习文章标签：西瓜书机器学习公式推导

本文链接：https://blog.csdn.net/haimianjie2012/article/details/103464599

版权

机器学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

1.证明信息熵Ent(D)满足： $0\leqslant Ent(D)\leq \log_2|y|$

信息熵定义：

$Ent(D)=-\sum_{k=1}^{|y|}p_k\log_2p_k$

其中， p_k 是第k类样本占比例，所以有： $0\leq p_k \leq 1$ 且 $\tiny \sum_{k=1}^{|y|} p_k = 1$

如果令 $\tiny n=|y| , p_k=x_k$ ，那么信息熵Ent(D)可以看作一个n元实值函数：

$\tiny Ent(D)=f(x_1,x_2,....,x_n)=-\sum_{k=1}^n x_k\log_2x_k$

其中 $\tiny 0<x_k<1 , \sum_{k=1}^nx_k=1$ ，所以证明Ent(D)的最值就等同于证明下面等式：

$\large \left \{ ^{min\sum_k^n x_k \log_2x_k} _{s.t. \sum_{k=1}^nx_k=1}$

$\tiny x_k\log_2x_k$ 的一阶导数： $\tiny \frac{\partial x_k \log_2x_k}{\partial x_k} =\log_2 x_k+ \frac{1}{\ln_2}$

$\tiny x_k\log_2x_k$ 的二阶导数： $\tiny \frac{\partial \log_2x_k+\frac{1}{\ln_2}}{\partial x_k} = \frac {1}{x_k\ln_2}>0$

所以我们要优化的函数 $\tiny min\sum_k^n x_k \log_2x_k}$ 是一个凸函数，关于如何证明一个函数是凸函数，可以参看：什么是凸函数及如何判断一个函数是否是凸函数

如果s.t.限制条件 $\tiny \sum_{k=1}^nx_k=1$ 是一个线性函数且优化函数是一个凸函数，那么我们称这个优化问题为凸优化问题。

凸优化问题比较好解决，只要满足KKT条件的点就是该优化问题的最优解。如果想要证明这个结论，可以查看天燕军，梁治安.最优化基础理论与方法[M].复旦大学出版社，2011.

什么是KKT条件，这个在SVM中会详细讲解。在这里，我们令优化函数的拉格朗日函数一阶偏导等于0，就可以满足KKT条件。

下面运用拉个朗日乘子法，写出该优化问题的拉个朗日函数：

$\tiny L(x_1,....,x_n, \lambda ) = \sum_{k=1}^n x_k \log_2 x_k+\lambda (\sum_{k=1}^n x_k-1)$

拉格朗日函数分别对 $\tiny x_1,...,x_n, \lambda$ 求一阶偏导：

$\tiny \frac{\partial L(x_1,...,x_n,\lambda )}{\partial x_1} = \frac {\partial \sum_{k=1}^n x_k \log_2x_k+\lambda(\sum_{k=1}^1 x_k-1) }{\partial x_1} = 0 \Rightarrow \log_2 x_1+\frac{1}{\ln_2}+ \lambda = 0$ $\tiny \frac{\partial L(x_1,....,x_n,\lambda )}{\partial \lambda } =0 \Rightarrow \sum_{k=1}^n x_k=1$