决策树

最新推荐文章于 2024-01-02 01:21:16 发布

big源源

最新推荐文章于 2024-01-02 01:21:16 发布

阅读量559

点赞数 1

文章目录

第1课认识决策树

从一个问题开始：小明喜欢看什么类型的电影？
1.档期内小明看过的电影：

序号	片名
1	疯狂动物城
2	美国队长
3	龙珠Z：复活的弗利萨
4	速度与激情8
5	战狼II
6	赛尔号大电影6：圣者无敌

2.该档期所有的电影：

3.进行分类：
把小明喜欢看的电影按某些依据放到一些盒子内，把小明不喜欢看的电影按照同样的规则放到另外一些盒子内。
也就是说盒子里要么全是小明喜欢看的电影，要么全是小明不喜欢看的电影。
分类的依据就是特征
电影决策树
4.如果正在上映新电影《复仇者联盟4》，判断小明会不会看：
《复仇者联盟4》属于科幻电影，也是美国电影，是小明喜欢看的电影。
5.思考，以为类型为第一划分依据是否合理呢？
能否用电影的票房为第一划分依据
能否用电影的产地为第一划分依据

第2课熵

熵：热力学中表示物质状态的参量之一，用符号S表示，物理意义是体系混乱程度的度量。
信息熵：离散随机事件出现的概率

计算公式：
假如一个随机变量 $X$ 的取值为 $X={x_1,x_2,...,x_n}$ ，每一种取到的概率分别是 ${p_1,p_2,...,p_n}$ ，那么 $X$ 的熵的定义为
$H(X)=-\sum_{i=1}^n p_i log_2p_i$
单位是bit，可以理解成需要多少个bit才能存储这些可能性。
对于分类系统来说，类别 $C$ 是变量，它的取值是 $C_1,C_2,...,C_n$ ，而每一个类别出现的概率分别是
$P(C_1),P(C_2),...,P(C_n)$
而这里的n就是类别的总数，此时分类系统的熵就可以表示为
$H(C)=-\sum_{i=1}^n P(C_i)log_2P(C_i)$

举例

世界杯决赛32强产生，如果32支球队夺冠概率相同，那么信息熵是：
H=-((1/32)*log(1/32)+(1/32)*log(1/32)+…+(1/32)*log(1/32)=-log(1/32)=log32=5(bit)
常用的汉字约7000字。假如每个汉字等概率出现，那么信息熵是：
H=-((1/7000)*log(1/7000)+(1/7000)*log(1/7000)+…+(1/7000)*log(1/7000))=12.77(bit)
小乔和大乔下棋，两人势均力敌，那么信息熵是：
H = -((1/2)*log(1/2)+(1/2)*log(1/2)) =1(bit)
小乔和大乔下棋，大乔胜率80%，那么信息熵是：0.72

小明观影

在这里插入图片描述
信息增益：
H(x) - H类型(x) = 0.22
H(x) - H产地(x) = 0.47
H(x) - H票房(x) = 0.13

第三课

信息增益：
ID3算法：选择最大增益量来作为第一个分枝条件

big源源

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
决策树

文章目录第1课认识决策树第2课熵举例小明观影第1课认识决策树从一个问题开始：小明喜欢看什么类型的电影？1.档期内小明看过的电影：序号片名1疯狂动物城2美国队长3龙珠Z：复活的弗利萨4速度与激情85战狼II6赛尔号大电影6：圣者无敌2.该档期所有的电影：3.进行分类：把小明喜欢看的电影按某些依据放到一些盒子内，把...
复制链接

扫一扫