西瓜书第四章读书笔记

ke1yn

已于 2023-03-24 00:52:59 修改

阅读量51

点赞数 1

分类专栏：西瓜书读书笔记文章标签：机器学习 Powered by 金山文档

于 2023-02-24 16:35:01 首次发布

本文链接：https://blog.csdn.net/ke1yn/article/details/129196954

版权

西瓜书读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

很可惜由于自己的拖延，没赶上task03的datawhale打卡，导致任务已经终止了。不过还是继续把西瓜书读完吧（悲）

4.0信息熵

看了哔站up“致敬大神”的讲解，感觉醍醐灌顶。

4.0.1概念

熵是用来量化不确定性的，例如买西瓜时一个瓜的口感往往好坏参半，这种不确定性就是“熵”。而信息就是用来削弱这种不确定性的，其作用包括a.调整概率b.排除干扰

调整概率

如果在买西瓜时拍了拍，声音清脆，那么好瓜的概率由好坏参半的50％提升到了70％.

排除干扰

根据经验，一个西瓜是否是好瓜与这个西瓜是否包装精美，西瓜店的位置无关，那么就可以排除这些无关紧要的信息，这些无关紧要的信息就称为噪音，而数据中就包括信息和噪音。

4.0.2熵的量化

用抛硬币的不确定性来量化。

一个事情发生概率为1/8，那么就相当于抛3枚硬币，熵就是3bit.

等概率均匀分布 $\text{[math]}$

n表示熵，m表示发生的情况数.

如果有10种等可能的情况，那么不确定性就是相当于抛了 $\text{[math]}$ 枚硬币，亦即熵为 $\text{[math]}$ .

一般分布 $\text{[math]}$

假设三种情况A、B、C发生的概率分别是1/2,1/3,1/6其概率不相同.那么假设A、B、C是由几个概率为1/6的基本事件组成的，那么熵就是 $\text{[math]}$ 。在A情况下三种情况被归为了一种，相当于减少了 $\text{[math]}$ ，即 $\text{[math]}$ ，再乘上权重1/2，就是 $\text{[math]}$ .B和C同理，分别是 $\text{[math]}$ 和 $\text{[math]}$

加起来是

4.0.3信息的量化

得知信息前后，熵的差额，就是信息的量（信息增益）

举例，小明有ABCD四个选项，若信息为“C选项有50%的概率为正确选项，50%的概率为错误选项”，则ABCD发生的概率由 $\text{[math]}$ $\text{[math]}$ $\text{[math]}$ $\text{[math]}$ 变为了 $\text{[math]}$ $\text{[math]}$ $\text{[math]}$ $\text{[math]}$ 。则得知信息前熵为 $\text{[math]}$ ，得知信息后熵为 $\text{[math]}$

4.1 ID3算法

ID3算法就是根据信息增益构建决策树:

首先根据正反例的占比，计算熵为0.998，然后分别按色泽、根蒂等属性计算信息增益，选择信息增益最大的作为分支属性，建立这样的决策树：

4.2 C4.5算法

在ID3的基础上，引入信息增益率的概念，定义如下：

在选择最优属性时，先根据信息增益确定范围（例如前五名的属性），再从中选择增益率最高的。

分裂信息项阻碍选择值为均匀分布的属性。例如，考虑一个含有n个样例的集合被属性A彻底分割（译注：分成n组，即一个样例一组）。这时分裂信息的值为log2n。相反，一个布尔属性B分割同样的n个实例，如果恰好平分两半，那么分裂信息是1。如果属性A和B产生同样的信息增益，那么根据增益比率度量，明显B会得分更高。