机器学习实战——决策树

最新推荐文章于 2024-10-02 13:16:54 发布

Ruby_shang

最新推荐文章于 2024-10-02 13:16:54 发布

阅读量159

点赞数

分类专栏：机器学习实战文章标签：机器学习

本文链接：https://blog.csdn.net/ruby_sh/article/details/78298668

版权

机器学习实战专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树

1、Python中列表类型自带的extend（）方法和append（）方法。

list.append(object) 向列表中添加一个对象object；list.extend(seq) 把一个序列seq的内容添加到列表中。如下图所示：

在执行a.append（b）之后，列表中添加了第四个元素，第四个元素是列表的形式；a.extend(b)之后，列表中包含了列表a和b中的所有元素。

2、Python语言在函数中传递的是列表的引用，在函数内部对列表对象的修改，将会影响该列表对象的整个生存周期。为了消除这个不良影响，我们需要在函数的开始声明一个新列表对象。在本节中，指的是在划分数据集函数中，传递的参数dataSet列表的引用，为了不影响dataSet我们重新声明了一个retDataSet列表。

3、在数据可视化的过程中，我们需要在数据图形上添加文本注解。使用text()会将文本放置在轴域的任意位置。文本的一个常见用例是标注绘图的某些特征，而annotate()方法提供辅助函数，使标注变得容易。在使用annotate()函数的过程中，需要两个坐标点：参数xy（所需要标注的点的位置坐标）；xytext（填写标注文本的地方）；arrowprops（标注箭头属性信息，通过提供的属性字典来绘制文本到注释点的箭头）；xycoords和textcoords指定所使用的坐标系；bbox（在周围绘制一个文本框）

CSDN上的一篇文章介绍的非常具体，相关链接：http://blog.csdn.net/wizardforcel/article/details/54782628

4、在程序清单3-6中，书上的代码会出现如下问题：

firstStr = myTree.keys()[0]，是取第一次划分数据集的类别标签，即键值。但是这在Python3中运行会报错：这是因为python3改变了dict.keys,返回的是dict_keys对象,支持iterable（迭代）但不支持indexable（索引）。我们可以将其明确的转化成list，则处代码在Python3中应这样实现：

firstStr = list(myTree.keys()) [0]

5、为了节省计算时间，最好能够在每次执行分类时调用已经构造好的决策树，这时需要使用模块pickle序列化对象。pickle的存储方式默认是二进制方式，所以在程序清单3-9中，以二进制的方式进行读写，否则会报错TypeError: write() argument must be str, not bytes

fw = open(filename,'wb+')

fr = open(filename,'rb')

6、参考连接： http://www.cnblogs.com/zy230530/p/6813250.html 在这个链接中，作者对书中决策树的代码进行了详细的注释，节省了自己很多时间，感谢作者。