注:本博客为周志华《机器学习》读书笔记
参照以及引用的博文和视频:
1.天泽28 https://blog.csdn.net/u012328159/article/details/70184415
2.ksy_e https://blog.csdn.net/kunshanyuZ/article/details/87861960
3.B站【一起啃书】机器学习西瓜书白话解读,作者是:致敬大神 https://www.bilibili.com/video/BV17J411C7zZ?p=64
4.2 划分选择
一般而言,随着决策树的不断划分,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。
4.2.1信息增益(决策树ID3训练算法)
信息与熵的概念及度量
一、概念
1.什么是熵
一种事物的不确定性。比如:我第一次去买西瓜,不知道怎么挑西瓜,很懵,但不知到该挑哪一个。
2.什么是信息
消除我对不确定事物的因素。
信息的作用:
调整概率;拿一个榴莲闻一闻,很香,他就进入了你的目标。
排除干扰;无关因素,包装,店面等等因素。
确定情况;比如卖瓜的人说了一句,这瓜保熟,不甜不要钱。你是不是打算挑这个西瓜。
3.噪音
不能消除某人对某件事的不确定性的事物(白白浪费精力)。
4.数据
我们日常得到的数据就是:噪音+信息
二、熵如何量化
- 参照单位
参照一个不确定的事件作为单位。
我的不确定相当于抛几次硬币的不确定性:如抛硬币:50%正,50%反相当于猜一次硬币的不确定性,记为1bit(二分法)。
如下表:
抛硬币次数 | 结果个数 |
---|---|
1 | 2 |
2 | 4 |
3 | 8 |
n | 2n |
抛硬币次数与结果不确定性呈指数关系
2.等概率均匀分布
8个等概率的不确定情况,相当于抛3次硬币
4个等概率的不确定情况,相当于抛2次硬币
假设有m=10个等概率的不确定情况,那么10 = 2n ,相当于抛n = log210 次硬币
所以等概率均匀分布的熵: n = log2m (m:有m种等概率的不确定的情况。n:这种情况熵的值)
3.每种情况概率不相等一般分布
样本集合D中第k类样本所占的比例为 p k p_k p