决策树
决策树是基于信息论提出的概念,划分原则是将原本无序的数据变得更加有序。
信息熵的概念
信息熵是指信息的不确定性,是对信息不确定性的度量。
信息熵的计算公式
信息增益
信息增益表示的是原来的数据在没有按照任何属性划分时的熵与按照某一属性A进行划分后的信息熵的差值。
信息熵的计算
import numpy as np
# 判断账号是否真实:3 no(0.3)7 yes(0.7)
# 不进行划分,计算信息熵
info_D=0.3*np.log2(1/0.3)+0.7*np.log2(1/0.7)
print(info_D)
# 建立决策树,对目标值进行划分
# 三个属性:日志密度、好友密度、是否真实头像
# 使用日志密度进行决策树的构建
# 3s 0.3 ----->2 no 1 yes
# 4m 0.4 ----->1 no 3 yes
# 3l 0.3 ----->3 yes
info_L_D=0.3*(2/3*np.log2(3/2)+1/3*np.log2(3))+0.4*(0.25*np.log2(4)+0.75*np.log2(4/3))+0.3*(1*np