Machine Learning in Action 学习笔记-(3)决策树

转载 2016年06月01日 22:43:45

决策树对于我们来说就像是一个具有终止块的流程图一样,终止块就向我们展示了分类的结果。

通过使得信息熵变化至最小的原理构建我们的决策树不同的层,并且我们可以使用treePlotter.py这个模块来实现决策树的树形图绘制,能够更加直观的向我们展示决策树的结构。

决策树的层数将会极大的和我们所具有的feature的数量有关,可能会存在终止块中无法准确决策出结果的情况(比如说feature过少)

这一章讲解的内容是基于ID3算法的决策树,关于ID3算法:http://baike.baidu.com/link?url=MHew5hKGduQJeZwo4Rs5jK7rrl_oB8CyY6AhBxeHe3aTFnvXz-9gA1MPAHkaTyLQXF6BH4qQiAWl_i7OFdwJD_

后续章节会提到CART算法:http://www.tuicool.com/articles/jAB7ve

这里对于决策树的存储我们不会构造新的数据结构,而是使用python自带的dictionary(字典)的形式来保存数据

使用python的pickle模块来进行决策树的保存和读取工作。

利用ID3算法可能会存在过度匹配问题,这时候就需要剪枝等工作,合并相邻的无法产生大量信息增益的叶子点。

这时候就可以使用C4.5算法:http://blog.csdn.net/aladdina/article/details/4141048

发现了一个很好用的Python的字典:http://www.runoob.com/python/python-tutorial.html 虽然名字有点衰

关于数据:

监督学习一般使用两种类型的目标变量:标称型和数值型

标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)

数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)

今天就到这里,六一快乐!

小白学习Machine Learning in Action-机器学习实战------决策树

书中说:k近邻算法可以完成很多分类任务,但它最大的缺点就是无法给出数据的内在含义,决策树的主要优势就在于数据形式很容易理解。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终使用...

《Machine Learning in Action》 读书笔记之二:决策树(ID3)

1. 对一个数据集,建立决策树,该如何split数据才更好呢,这里引入信息增益(Information Gain)的概念,指的是spilt数据前后信息的变化,在某位特征上split数据得到最大的信息增...

一种面向高维数据的集成聚类算法

聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效地提高聚类结果的准确性、鲁棒性和稳定性。本...

Machine Learning In Action -- ID3决策树学习算法的python实现

decision tree Learning 决策树学习笔记 决策树学习是一种相对比较简单的分类学习方法,但是分类效果较好并且表示直观,主要针对离散型目标,它也等价于用if-then规则表示。 ...

Machine Learning in Action - 决策树

代码要求参数dataSet数据集最后一列是当前实例的类别标签。按照给定特征提取数据集按照给定的特征axis,提取特征的值等于value的数据集。def splitDataSet(dataSet, a...

周志华《Machine Learning》学习笔记(5)--决策树

上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始,讨论输入属性有一个和多个的情形,接着通过广义线性模型延伸开来,将预测连续值的回归问题转化为分类问题,从而引入了对数几率回归,最后线性判别分析...

周志华《Machine Learning》学习笔记(5)--决策树

转自:http://blog.csdn.net/u011826404/article/details/53606485 上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始,讨论输入属...
  • hhsh49
  • hhsh49
  • 2017年11月03日 16:18
  • 74

机器学习(Machine Learning)概念整理(PCA、概念学习、ID3算法、决策树算法)

机器学习概念整理 PCA、概念学习、ID3算法、决策树算法

Machine Learning in Action 学习笔记-(4)基于概率论的分类方法:朴素贝叶斯

开篇为我们讲解了许多实际应用情况下,我们可能不需要得到精准的分类,而是属于某一类的概率,以及属于其他类的概率。 这里我就简单的以论坛侮辱性言语检测为例,来讲一下算法的流程。 函数伪代码是: 计算每个类...

机器学习实战(Machine Learning in Action)笔记--Chapter1:机器学习基础

机器学习实战(Machine Learning in Action)笔记–Chapter1:机器学习基础Part1 分类监督学习一般使用两种类型的目标变量:标称型(主要用于分类)、数值型(主要用于回归...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Machine Learning in Action 学习笔记-(3)决策树
举报原因:
原因补充:

(最多只允许输入30个字)