决策树算法:
分类算法:
目标值
离散型
特征值:
离散型[如这里的字符串类型的特征值] 将特征值为离散型的数值转化为数值型
‘1st’
‘2nd’
‘3rd’
在pandas里面数据离散化采用:
one-hot编码
####决策树算法去关心的两个问题:
1 结果(目标值)纯度问题
2 如何选择最优划分指标 --> 让我们结果尽可能的简单纯粹
纯度 :
{1,1,1,1,1,1,1}
{0,0,0,0,0,0,0,0,0}
不纯的情况:
{0,1,0,1,0,1,0,1,0,1}
{1,1,1,0,0,0,1,1,1,0}
####决策树分类原理
信息熵:
n pi = 1/n
当信息熵最不纯的时候,每种发生的概率值是相等的
-sum[pi*log(pi)]
- sum pi * log(pi)
最不纯的情况:
log(n)
最纯的情况:
p1 = 1 p2, p3, pn = 0
- 1 * log(1) = 0
信息熵的单位是 bit
log(32) = 5 bit
所以对咱们的32支球队的获胜的预测概率求解,假设如果是等概率的情况,那么需要使用5位可以预测最后的获胜球队
11111 bit
决策树的划分依据一----信息增益
H(D)
咱们的信息熵的