第1课 认识决策树
从一个问题开始:小明喜欢看什么类型的电影?
1.档期内小明看过的电影:
序号 | 片名 |
---|---|
1 | 疯狂动物城 |
2 | 美国队长 |
3 | 龙珠Z:复活的弗利萨 |
4 | 速度与激情8 |
5 | 战狼II |
6 | 赛尔号大电影6:圣者无敌 |
2.该档期所有的电影:
3.进行分类:
把小明喜欢看的电影按某些依据放到一些盒子内,把小明不喜欢看的电影按照同样的规则放到另外一些盒子内。
也就是说盒子里要么全是小明喜欢看的电影,要么全是小明不喜欢看的电影。
分类的依据就是特征
4.如果正在上映新电影《复仇者联盟4》,判断小明会不会看:
《复仇者联盟4》属于科幻电影,也是美国电影,是小明喜欢看的电影。
5.思考,以为类型为第一划分依据是否合理呢?
能否用电影的票房为第一划分依据
能否用电影的产地为第一划分依据
第2课 熵
熵:热力学中表示物质状态的参量之一,用符号S表示,物理意义是体系混乱程度的度量。
信息熵:离散随机事件出现的概率
计算公式:
假如一个随机变量
X
X
X的取值为
X
=
x
1
,
x
2
,
.
.
.
,
x
n
X={x_1,x_2,...,x_n}
X=x1,x2,...,xn,每一种取到的概率分别是
p
1
,
p
2
,
.
.
.
,
p
n
{p_1,p_2,...,p_n}
p1,p2,...,pn,那么
X
X
X的熵的定义为
H
(
X
)
=
−
∑
i
=
1
n
p
i
l
o
g
2
p
i
H(X)=-\sum_{i=1}^n p_i log_2p_i
H(X)=−i=1∑npilog2pi
单位是bit,可以理解成需要多少个bit才能存储这些可能性。
对于分类系统来说,类别
C
C
C是变量,它的取值是
C
1
,
C
2
,
.
.
.
,
C
n
C_1,C_2,...,C_n
C1,C2,...,Cn,而每一个类别出现的概率分别是
P
(
C
1
)
,
P
(
C
2
)
,
.
.
.
,
P
(
C
n
)
P(C_1),P(C_2),...,P(C_n)
P(C1),P(C2),...,P(Cn)
而这里的n就是类别的总数,此时分类系统的熵就可以表示为
H
(
C
)
=
−
∑
i
=
1
n
P
(
C
i
)
l
o
g
2
P
(
C
i
)
H(C)=-\sum_{i=1}^n P(C_i)log_2P(C_i)
H(C)=−i=1∑nP(Ci)log2P(Ci)
举例
- 世界杯决赛32强产生,如果32支球队夺冠概率相同,那么信息熵是:
H=-((1/32)*log(1/32)+(1/32)*log(1/32)+…+(1/32)*log(1/32)=-log(1/32)=log32=5(bit) - 常用的汉字约7000字。假如每个汉字等概率出现,那么信息熵是:
H=-((1/7000)*log(1/7000)+(1/7000)*log(1/7000)+…+(1/7000)*log(1/7000))=12.77(bit) - 小乔和大乔下棋,两人势均力 敌,那么信息熵是:
H = -((1/2)*log(1/2)+(1/2)*log(1/2)) =1(bit) - 小乔和大乔下棋,大乔胜率80%,那么信息熵是:0.72
小明观影
信息增益:
H(x) - H类型(x) = 0.22
H(x) - H产地(x) = 0.47
H(x) - H票房(x) = 0.13
第三课
信息增益:
ID3算法:选择最大增益量来作为第一个分枝条件