信息熵和信息增益
信息熵(information entropy)是信息论的基本概念。描述信息源各可能事件发生的不确定性。
![](https://img-blog.csdnimg.cn/img_convert/5ed757bcb681785d6adeaf2d62b5251e.png)
![](https://img-blog.csdnimg.cn/img_convert/75ca5c3e7d4ad57d5c373c9d6b03b9ac.png)
信息增益:在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
![](https://img-blog.csdnimg.cn/img_convert/d52ead8f0ac09da84065a3686dbc0231.png)
![](https://img-blog.csdnimg.cn/img_convert/a96ccf8b577291f273d418a39b93b148.png)
![](https://img-blog.csdnimg.cn/img_convert/47cb4d579a63427560b0f74ad58e6cbd.png)
![](https://img-blog.csdnimg.cn/img_convert/803ff3375b3935821669717035ef51e1.png)
上述计算均针对于目标值,总共15条数据,9个是,6个否,对于年龄,又分为青年、中年和老年;各占1/3,对于青年,有2个是,3个否,计算青年的信息熵,对于中年和老年同样可计算信息熵,最后计算出年龄的信息增益是信息熵-年龄的条件熵
![](https://img-blog.csdnimg.cn/img_convert/e96921db953271cc8ba47cb285e261cb.png)
决策树
![](https://img-blog.csdnimg.cn/img_convert/21dd864ca475cfdf359e8e16e75fff08.png)
决策树的划分依据之一就是信息增益
![](https://img-blog.csdnimg.cn/img_convert/d0fbc005cde92b9838c2c983a1523b89.png)
![](https://img-blog.csdnimg.cn/img_convert/8583493595aed48e0547fb9168edbf1e.png)
实例
使用决策树进行乳腺癌的分类
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
#导入数据集
data = load_breast_cancer()
#查看特征维度
print('特征维度是:',data.data.shape)
#特征值名字
print('特征值名字:',data.feature_names)
#目标值名字
print('目标值名字:',data.target_names)
#分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.25)
#使用决策树
dec = DecisionTreeClassifier() #默认基尼系数
dec.fit(x_train,y_train)
#输出预测值
y_pre = dec.predict(x_test)
print('预测的值是:',y_pre)
#输出准确率
print('准确率是:',dec.score(x_test,y_test))
#导出决策树图dot格式
export_graphviz(dec,out_file='./tree.dot',feature_names=data.feature_names,class_names=data.target_names)
![](https://img-blog.csdnimg.cn/img_convert/bad41f0ca096c11d9d6b22a298d5b4e4.png)
其中可以导出决策树图
![](https://img-blog.csdnimg.cn/img_convert/7317045e43e20d7afd58c19089ffdbc2.png)
需要安装graphviz,可以pip安装,将安装目录的bin 放入环境变量。重启电脑就可以使用命令了。
cmd进入到tree.dot所在的文件夹,输入命令dot -Tpng tree.dot -o tree.png
![](https://img-blog.csdnimg.cn/img_convert/214f4b89636079ff9a9851b6f53b5c44.png)
![](https://img-blog.csdnimg.cn/img_convert/8ebc9b151cee1856c89ca08a5c36f36b.png)