机器学习----决策树

最新推荐文章于 2024-04-30 09:15:25 发布

这题我会啊

最新推荐文章于 2024-04-30 09:15:25 发布

阅读量580

点赞数

分类专栏： machine-learning 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Love_wanling/article/details/65444642

版权

machine-learning 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

西瓜书阅读笔记话不多说开始吧~

决策树选取属性标准

决策树选取属性标准：“信息增益”（information gain）
1. $Gain(D,a)=Ent(D)-\sum_{v=1}^{V}|D^v|Ent(D^v)/|D|$
2. Gain有选择多分支的倾向，比如按编号划分，就是说一个个体一个分支。这样当然是不好的，纠正，“增益率”（Gain Ratio）

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
3. 基尼指数(Gini index)

G i n i (D) = \sum k = 1 | y | \sum m \neq k p m p k = 1 - \sum k = 1 | y | p 2 k

$Gini(D)=\sum_{k=1}^{|y|}\sum_{m \neq k}p_mp_k=1-\sum_{k=1}^{|y|}p^2_k$
直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini（D）越小，则数据集D的纯度越高。内聚性

预防过拟合

剪枝（validation 验证）
1. 预剪枝
2. 后剪枝

连续值处理

样本D/连续属性a。假定a在D上出现了n个不同取值{ $a^1,a^2,...a^n$ }
基于t，分为两类 $D_t^-/D_t^+$ , $D_t^-$ 为属性a上取值不大于t的样本， $D_t^+$ 为属性a上取值大于t的样本。
可以有n-1个元素候选划分集合：

T a = {a i + a i + 1 2 | 1 \leq i \leq n - 1}

$T_a=\{\frac{a^i+a^{i+1}}{2}|1\leq i\leq n-1\}$

这题我会啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。