决策树

决策树归纳法
ID3的核心思想:选择信息增益最大的属性进行分裂。
根节点选取:
信息获取量:  Gain(属性1) = Info(D)  -- Info_属性1(D)
            Gain(属性2) = Info(D)  -- Info_属性2(D) 
            Gain(属性...) = Info(D)  -- Info_属性...(D)
取最大的信息获取量最为根节点
重复以上操作确定其他节点
决策树的优缺点
优点
1. 直观、便于理解、小规模数据集有效
缺点
1. (1)处理连续变量不理想
2. 类别较多时,错误增加较快
3. 可规模性一般

决策树的应用

Python
1. 安装库:  scikit-learn 、 numpy 、scipy 、 matplotlib或者安装Anaconda环境:包含以上库,[Anaconda安装](https://blog.csdn.net/gf_lvah/article/details/79482585)
2. 安装Graphviz: http://www.graphviz.org/    (将文件转换为其他文件格式,这里展示决策树)双击msi文件;安装完成后配置Path环境变量; 验证是否成功,dot -version
实现
数据预处理
1. 将exls格式文件转换成csv格式数据
2. 将数据转换为字典形式的list集合
3. 将数据0/1数据格式
![数据显示](https://img-blog.csdn.net/20180419162806415?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RpbmdfMTYz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
生成决策树
将.dot文件转换为.pdf格式:>dot -Tpdf input.dot -o output.pdf
![生成的决策树](https://img-blog.csdn.net/2018041916295426?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RpbmdfMTYz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
数值预测
输入数据:[senior ,  medium ,  Yes ,  Excellent]
转换为二值数据: [0. 1. 0. 1. 0. 0. 1. 0. 1. 0.]
         输出结果:[ 0 ]
与人为检测结果相同。

参考博文链接

[博客链接](https://blog.csdn.net/momaojia/article/details/73647655)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值