Machine Learning in Action 学习笔记-（3）决策树

最新推荐文章于 2019-07-26 18:34:12 发布

zclhit_

最新推荐文章于 2019-07-26 18:34:12 发布

阅读量2.1k

点赞数

分类专栏： # Python Machine Learning

Python 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

Machine Learning

6 篇文章 0 订阅

订阅专栏

决策树对于我们来说就像是一个具有终止块的流程图一样，终止块就向我们展示了分类的结果。

通过使得信息熵变化至最小的原理构建我们的决策树不同的层，并且我们可以使用treePlotter.py这个模块来实现决策树的树形图绘制，能够更加直观的向我们展示决策树的结构。

决策树的层数将会极大的和我们所具有的feature的数量有关，可能会存在终止块中无法准确决策出结果的情况（比如说feature过少）

这一章讲解的内容是基于ID3算法的决策树，关于ID3算法：http://baike.baidu.com/link?url=MHew5hKGduQJeZwo4Rs5jK7rrl_oB8CyY6AhBxeHe3aTFnvXz-9gA1MPAHkaTyLQXF6BH4qQiAWl_i7OFdwJD_

后续章节会提到CART算法：http://www.tuicool.com/articles/jAB7ve

这里对于决策树的存储我们不会构造新的数据结构，而是使用python自带的dictionary（字典）的形式来保存数据

使用python的pickle模块来进行决策树的保存和读取工作。

利用ID3算法可能会存在过度匹配问题，这时候就需要剪枝等工作，合并相邻的无法产生大量信息增益的叶子点。

这时候就可以使用C4.5算法：http://blog.csdn.net/aladdina/article/details/4141048

发现了一个很好用的Python的字典：http://www.runoob.com/python/python-tutorial.html 虽然名字有点衰

关于数据：

监督学习一般使用两种类型的目标变量：标称型和数值型

标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)

数值型：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等 (数值型目标变量主要用于回归分析)

今天就到这里，六一快乐！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。