机器学习算法之：决策树 (decision trees)

最新推荐文章于 2023-07-07 19:54:06 发布

刚搬完砖

最新推荐文章于 2023-07-07 19:54:06 发布

阅读量3k

点赞数

分类专栏：机器学习 python 文章标签：机器学习算法决策树 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011467621/article/details/49281405

版权

本文深入探讨了决策树的学习过程，包括特征选择、信息增益、决策树建立和剪枝。通过信息熵和信息增益度量特征的重要性，采用ID3算法建立决策树，并提供Python代码实现。在实验中，对连续数据进行离散化处理以适应决策树模型。最终在'adults'数据集上测试，得到约78.3%的准确率，指出连续特征离散化程度和剪枝对模型性能的影响。

摘要由CSDN通过智能技术生成

> By joey周琦

概述

线性模型一般variance小，bias大；而树模型一般variance大，bias小
决策树的优点：具有可读性，分类速度快
一般包含三个步骤：
- 特征选择
- 决策树生成
- 剪枝
决策树定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点分为内部结点和叶结点，内部结点表示一个特征(feature),外部结点表示一个类。
- 决策树可以看为一个if-then规则集合，具有“互斥完备”性质

决策树学习

假设有数据集

D = {(x 1, y 1), (x 2, y 2), . . . (x N, y N)}

$D= \{(x_1,y_1),(x_2,y_2) ,...(x_N,y_N)\}$
其中

xi=(x1i,x2i,...xni) $x_i = (x_i^1,x_i^2,...x_i^n)$ , 为输入特征向量，n为特征的数目.

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

刚搬完砖 CSDN认证博客专家 CSDN认证企业博客

码龄11年

49: 原创

7万+: 周排名

64万+: 总排名

31万+: 访问

: 等级

2466: 积分

112: 粉丝

80: 获赞

31: 评论

196: 收藏

私信

关注

热门文章

分类专栏

机器学习 18篇
数据挖掘 9篇
python 3篇
统计学 2篇
推荐系统 1篇
kaggle 1篇
笔记 2篇
思考 1篇
代码 2篇
自然语言处理 2篇

最新评论

Permutation Test 置换检验(转）
hypergq: 我也有上面同样的疑问，我用两组真实的数据得到了一个真实的差，我再随机打乱他们得到更多的随机差，这些随机的差有什么意义呢？并不能反应我的数据的真实情况啊？即使我的真实差不在随机差的前5%，但他是真实结果得到的啊，有没有人能解释一下
在pytorch中load超大训练数据
aptx4869ldz: 请问博主思路一中内存依然不断上升的原因找到了吗？是为什么呢？我也遇到了同样的问题，求解，谢谢！
Dummy variable (变量dummy化）
沈悠闲: 通俗易懂
Permutation Test 置换检验(转）
萝卜丝皮尔: 一般来说，P值小于0.05会拒绝原假设。至于文章里的均值差异，是文章定义的检验统计量，也可以定义为两组数据的中位数差值作为检验统计量等的。个人乱说的~
Permutation Test 置换检验(转）
萝卜丝皮尔: 校正之后的p值偏大，我猜，这样就可以更充分地拒绝原假设了（如果能够拒绝的话）。因为被调大的P值还小于显著性水平，那么真实数据构造出来的P值更小于显著性水平。个人乱猜的~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。