熵
决策树归纳法
ID3的核心思想:选择信息增益最大的属性进行分裂。
根节点选取:
信息获取量: Gain(属性1) = Info(D) -- Info_属性1(D)
Gain(属性2) = Info(D) -- Info_属性2(D)
Gain(属性...) = Info(D) -- Info_属性...(D)
取最大的信息获取量最为根节点
重复以上操作确定其他节点
决策树的优缺点
优点
1. 直观、便于理解、小规模数据集有效
缺点
1. (1)处理连续变量不理想
2. 类别较多时,错误增加较快
3. 可规模性一般
决策树的应用
Python
1. 安装库: scikit-learn 、 numpy 、scipy 、 matplotlib或者安装Anaconda环境:包含以上库,[Anaconda安装](https://blog.csdn.net/gf_lvah/article/details/79482585)
2. 安装Graphviz: http://www.graphviz.org/ (将文件转换为其他文件格式,这里展示决策树)双击msi文件;安装完成后配置Path环境变量; 验证是否成功,dot -version
实现
数据预处理
1. 将exls格式文件转换成csv格式数据
2. 将数据转换为字典形式的list集合
3. 将数据0/1数据格式
![数据显示](https://img-blog.csdn.net/20180419162806415?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RpbmdfMTYz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
生成决策树
将.dot文件转换为.pdf格式:>dot -Tpdf input.dot -o output.pdf
![生成的决策树](https://img-blog.csdn.net/2018041916295426?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RpbmdfMTYz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
数值预测
输入数据:[senior , medium , Yes , Excellent]
转换为二值数据: [0. 1. 0. 1. 0. 0. 1. 0. 1. 0.]
输出结果:[ 0 ]
与人为检测结果相同。
参考博文链接
[博客链接](https://blog.csdn.net/momaojia/article/details/73647655)