Machine Learning in Action 学习笔记-(3)决策树

转载 2016年06月01日 22:43:45

决策树对于我们来说就像是一个具有终止块的流程图一样,终止块就向我们展示了分类的结果。

通过使得信息熵变化至最小的原理构建我们的决策树不同的层,并且我们可以使用treePlotter.py这个模块来实现决策树的树形图绘制,能够更加直观的向我们展示决策树的结构。

决策树的层数将会极大的和我们所具有的feature的数量有关,可能会存在终止块中无法准确决策出结果的情况(比如说feature过少)

这一章讲解的内容是基于ID3算法的决策树,关于ID3算法:http://baike.baidu.com/link?url=MHew5hKGduQJeZwo4Rs5jK7rrl_oB8CyY6AhBxeHe3aTFnvXz-9gA1MPAHkaTyLQXF6BH4qQiAWl_i7OFdwJD_

后续章节会提到CART算法:http://www.tuicool.com/articles/jAB7ve

这里对于决策树的存储我们不会构造新的数据结构,而是使用python自带的dictionary(字典)的形式来保存数据

使用python的pickle模块来进行决策树的保存和读取工作。

利用ID3算法可能会存在过度匹配问题,这时候就需要剪枝等工作,合并相邻的无法产生大量信息增益的叶子点。

这时候就可以使用C4.5算法:http://blog.csdn.net/aladdina/article/details/4141048

发现了一个很好用的Python的字典:http://www.runoob.com/python/python-tutorial.html 虽然名字有点衰

关于数据:

监督学习一般使用两种类型的目标变量:标称型和数值型

标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)

数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)

今天就到这里,六一快乐!

相关文章推荐

机器学习实战Machine Learning In Action 中的KNN代码详细解释

首先,是构造一个分类器函数classify0(),代码如下:def classify0(inX, groups, lables, key): dataSetSize = groups.sha...

Machine Learning in Action 学习笔记-(1)

第一章引入了监督学习和非监督学习两个概念,介绍了NumbPy库,以及Matplotlib绘图工具协同工作。 值得注意的是NumPy函数库中的matrix与MATLAB中matrices等价。 如何...

有趣的算法题

1. 如果字符串s中的字符循环移动任意位置之后能够得到另一字符串t,那么s就被称为t的回环变位。例如,ACTGACG 就是 TGACGAC 的一个回环变位,反之亦然。判定这个条件在基因组序列中的研究是...

Machine Learning in Action 学习笔记-(5)Logistic回归

logistic回归将会首次为我们引入最优化算法的分析思维,在对一系列点通过一条直线进行拟合的过程就是线性回归。 寻找最佳的拟合参数,就需要用到我们常用的最优化算法。 这里因为是进行二分类,所以可...

2016杂记

转眼2016年就过去了,想起去年这个时候还在焦头烂额的准备EMBC16的论文,一年后自己可以轻松地写出一篇4 pages A4 paper论文,真的可以算作一种提升,虽然我现在觉得这种提升不是我真正想...

算法4--双栈的利用<学习感悟>

最近在利用Java进行有关算法及背包、队和栈的数据结构学习,在利用双栈进行算数表达式求值和左括号补全的过程中,有一些感悟,于是记录下来同大家进行分享。

Machine Learning in Action 学习笔记-(4)基于概率论的分类方法:朴素贝叶斯

开篇为我们讲解了许多实际应用情况下,我们可能不需要得到精准的分类,而是属于某一类的概率,以及属于其他类的概率。 这里我就简单的以论坛侮辱性言语检测为例,来讲一下算法的流程。 函数伪代码是: 计算每个类...

利用梅尔倒谱系数(MFCC)及空间聚类算法实现音色识别

写在前面 2016年4月参加了哈尔滨工业大学深圳研究生院举办的创新创业比赛,司职算法组长,切入点定在了音色识别和相似明星音才艺展示推荐算法上,不才,拿到了一等奖,趁佳节未散与大家分享。 项目进度安...

《Machine Learning in Action》 读书笔记之二:决策树(ID3)

1. 对一个数据集,建立决策树,该如何split数据才更好呢,这里引入信息增益(Information Gain)的概念,指的是spilt数据前后信息的变化,在某位特征上split数据得到最大的信息增...

Machine Learning In Action -- ID3决策树学习算法的python实现

decision tree Learning 决策树学习笔记 决策树学习是一种相对比较简单的分类学习方法,但是分类效果较好并且表示直观,主要针对离散型目标,它也等价于用if-then规则表示。 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)