只因器学习2

最新推荐文章于 2024-07-25 22:24:14 发布

撕破伤口

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量191

点赞数

文章标签：学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49643291/article/details/127673760

版权

决策树与树集成模型

content：

从LR到决策树

1、总体流程与核心问题

怎么长

分而治之在中间节点寻找最优的划分的属性

停止条件

1 到达值；2、条件相同但值不同3、样本集为空

2、熵、信息增益、信息增益率

熵：度量样本纯度

假定在样本集合D中第k类样本占比为Pk则D的信息熵为:

|y|是类别数量哈
$-\sum\limits_{k = 1}^{|y|}p_klog_2p_k$
Ent(D)越小 D纯度越高

均分则纯度最低

信息增益：计算当前划分对熵造成的变化

ID3算法——基于最优信息增益选择划分属性

离散属性a的取值：
${a^1,a^2,...,a^v\}$
D中在a取a^v的样本合计 D^v

|D|是类别数量哈——加权哈
$\sum\limits_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

最大化信息增益

信息增益率：

C4.5中使用

使用原因：信息增益常对于可取值数目较多的属性有有所偏好 like ID属性

信息增益率：
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

其中 V 为a的可能取值
$-\sum\limits_{v = 1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
最大化信息增益率

基尼指数;

CART（二叉树）中使用
$\sum\limits_{k=1}^{|y|}p_k^2$
Gini(D)越小，set D的纯度最高

依据属性a划分D后的的基尼指数：
$Gini\_index(D,a) = \sum\limits_{v=1}^{V}\frac{|D^v|}{|D|}Gini(D^v)$
最小化不纯度

回归树

实际上是对空间的划分

1、构建回归树

2 steps：

1、把整个特征空间X分成J个无重叠的区域R_1 to R_j

2、每个区域使用均值代替
$\sum\limits_{j=1}^{J}\sum{_{i\in R_j}}(yi - \widetilde{y}_{R_j})^2$

2、最优回归树

我们希望找到使得RSS最小的划分方法

采用探索式的递归二分针对某一维的特征切分

自顶向下的贪婪式递归：
从所有样本开始、从当前位置划分、每一次划分只考虑当前最优
以划分后的RSS的值来衡量划分结果

$R_1(j,s)=\{x|x_J<s\} \\ R_2(j,s)=\{x|x_J\ge s\} \\ RSS=\sum{_{x\in R_1(j,s)}}(yi - \widetilde{y}_{R_1})^2+\sum{_{x\in R_2(j,s)}}(yi - \widetilde{y}_{R_2})^2$

回归树剪枝：有过拟合风险

添加正则化项
$\sum\limits_{m=1}^{|T|}\sum{_{x\in R_m}}(yi - \widetilde{y}_{R_m})^2+\alpha|T|\\ \alpha固定后，上式最小最佳 \\|T|是回归树的叶子节点个数\\ \alpha -超参数-可以由交叉验证选择$

从决策树倒随机森林

1、采样与bootstrap

对于输入的样本集合D |D|=M

随机有放回的抽取m个样本形成采样集D1

重复得到T个采样集合使用采样集训练T个学习器

分类：投票；回归：平均

2、bagging与随机森林

随机森林：在对样本采样的同时对特征也进行采样

使用CART作为基学习器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
只因器学习2

决策树与随机森林入门
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。