机器学习实战笔记之三（决策树）

柒安

于 2015-11-06 08:21:02 发布

阅读量592

点赞数

分类专栏：机器学习文章标签： python numpy 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/newfayi/article/details/49667831

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

决策树和k-近邻算法：

决策树，数据形式易于理解。

k-近邻算法，完成很多分类任务。

决策树的构造：

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

缺点：可能会产生过度匹配问题。

适用数据类型：数值型和标称型。

一般流程：

收集数据：可以使用任何方法。

准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。

分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。

训练算法：构造树的数据结构。

测试算法：使用经验树计算错误率。

使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

（另一个度量集合无序程度的方法：基尼不纯度 Gini impurity，从一个数据集中随机选取子项，度量其被错误分类到其他分组里的概率。）

chapter 3.3.1 测试算法：使用决策树执行分类

执行数据分类时，需要决策树以及用于构造树的标签向量。然后，程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子点；最后将测试数据定义为叶子节点所属的类型。

chapter 3.3.2 使用算法：决策树的存储

为了节省计算时间，最好能够在每次执行分类时调用已经构造好的决策树。为了解决这个问题，需要使用Python模块pickle序列化对象，参见程序清单3-9。序列化对象可以在磁盘上保存对象，并在需要时读取出来。任何对象都可以执行序列化操作，字典对象也不例外。

================================我是决策树的分割线================================

尼玛终于知道为什么计算结果和书上的不一样了，隐形眼镜那堆数据。

原来是打字员少缩进一行，我傻乎乎地连续缩进了2行。。。结果程序没报错，然而熵的结果完全错误了。（深刻教训）

决策树可以非常好地匹配实验数据，然而这些匹配选项可能太多了。。。（书的原话，借着吐槽一下）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战笔记之三（决策树）

决策树和k-近邻算法：决策树，数据形式易于理解。k-近邻算法，完成很多分类任务。
复制链接

扫一扫

专栏目录

柒安 CSDN认证博客专家 CSDN认证企业博客

码龄16年

20: 原创

31万+: 周排名

133万+: 总排名

7万+: 访问

: 等级

710: 积分

24: 粉丝

10: 获赞

15: 评论

25: 收藏

私信

关注

热门文章

分类专栏

笔记 41篇
机器学习 7篇
笨办法 8篇
爬虫

最新评论

mac安装opencv+python
Tisfy: 深得人心，正如古人云：恰同学少年，风华正茂；书生意气，挥斥方遒。
结算平台的搭建
7suxi_liu: 佣金的结算和本身代收代付的对账单用同一张对账单吗？
机器学习实战笔记之五（Logistic 回归）
Jacquelin_1: def sigmoid(x): if np.all(x>=0): #对sigmoid函数优化，避免出现极大的数据溢出 return 1.0 / (1 + np.exp(-x)) else: return np.exp(x)/(1+np.exp(x))
结算平台的搭建
weixin_44198334: 楼主这个整理的很不错，核心点应该就是结算规则的设置吧，应该要考虑很多结算周期、交易类型等因素。有个疑问，除了配置等，是否还有类SaaS的功能页面？各个商户、品牌商、门店是否要调用你的对账结算页面再去对账结算呢？
笨办法学python的笔记之四（ex27）
慎思而笃行: 第三种情况是不是打错了or

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。