机器学习实战——决策树

决策树
1、Python中列表类型自带的extend()方法和append()方法。
list.append(object) 向列表中添加一个对象object;list.extend(seq) 把一个序列seq的内容添加到列表中。如下图所示:

在执行a.append(b)之后,列表中添加了第四个元素,第四个元素是列表的形式;a.extend(b)之后,列表中包含了列表a和b中的所有元素。
2、Python语言在函数中传递的是列表的引用,在函数内部对列表对象的修改,将会影响该列表对象的整个生存周期。为了消除这个不良影响,我们需要在函数的开始声明一个新列表对象。在本节中,指的是在划分数据集函数中,传递的参数dataSet列表的引用,为了不影响dataSet我们重新声明了一个retDataSet列表。
3、在数据可视化的过程中,我们需要在数据图形上添加文本注解。 使用text()会将文本放置在轴域的任意位置。 文本的一个常见用例是标注绘图的某些特征,而annotate()方法提供辅助函数,使标注变得容易。在使用annotate()函数的过程中,需要两个坐标点:参数xy(所需要标注的点的位置坐标);xytext(填写标注文本的地方);arrowprops(标注箭头属性信息,通过提供的属性字典来绘制文本到注释点的箭头);xycoords和textcoords指定所使用的坐标系;bbox(在周围绘制一个文本框)
CSDN上的一篇文章介绍的非常具体,相关链接:http://blog.csdn.net/wizardforcel/article/details/54782628
4、在程序清单3-6中,书上的代码会出现如下问题:

firstStr = myTree.keys()[0],是取第一次划分数据集的类别标签,即键值。但是这在Python3中运行会报错:这是因为python3改变了dict.keys,返回的是dict_keys对象,支持iterable(迭代) 但不支持indexable(索引)。我们可以将其明确的转化成list,则处代码在Python3中应这样实现:
firstStr =  list(myTree.keys())  [0]
5、为了节省计算时间,最好能够在每次执行分类时调用已经构造好的决策树,这时需要使用模块pickle序列化对象。pickle的存储方式默认是二进制方式,所以在程序清单3-9中,以二进制的方式进行读写,否则会报错TypeError: write() argument must be str, not bytes
fw open(filename,'wb+')
fr open(filename,'rb')
6、参考连接: http://www.cnblogs.com/zy230530/p/6813250.html   在这个链接中,作者对书中决策树的代码进行了详细的注释,节省了自己很多时间,感谢作者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值