机器学习中的决策树及其演化算法

最新推荐文章于 2022-07-20 16:19:38 发布

景语

最新推荐文章于 2022-07-20 16:19:38 发布

阅读量3.1k

点赞数 2

分类专栏：数据结构与算法文章标签：机器学习算法决策树 GBDT 随即森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jmy5945hh/article/details/48395441

版权

1 树形算法家族族谱

1.1 决策树

采用divide-and-conquer算法思想，递归构建
特征选择——决策树生成——树剪枝
互斥与完备：每个训练样本有且仅有一条路径规则
最终可能训练出多个，可能一个没有；从所有可能决策树中选择最优是NP问题，因此现实中常用启发式（heuristic）方法
Loss Function：正则化的极大似然函数

树形表征
这里写图片描述

特征空间表征
这里写图片描述

1.1.1 ID3算法

采用信息增益决定每个节点选择哪个特征——启发认为信息增益大的特征具有更强的分类能力。

1.1.2 C4.5算法

采用信息增益比决定每个节点选择哪个特征

1.1.3 CART算法

CART假设决策树是二叉树（是/否），递归地二分每个特征
回归树：平方误差最小化准则
分类树：Gini指数最小化准则

1.1.4 剪枝

决策树的弱项就在于过拟合问题，因此通常需要剪枝后使用。
方法：最小化整体Loss Function
这里写图片描述
参数：α，表征了对模型复杂度的惩罚

1.2 随机森林

能够处理高维数据，不用做特征选择
训练过程中，能检测到特征间的相互影响
训练完成后，能够给出哪个特征比较重要

这里写图片描述
随机森林由多个互不相关的决策树组成，每当有一个样本输入时，森林里的每棵决策树都会对样本进行一次分类打标处理，最后采取投票准则来决定样本属于哪一类。

行采样与列采样
行：样本。采取有放回的采样方式，也就是构建不同的决策树时，可能用到了相同样本。
列：特征。采取无放回的采样方式，保证特征的不相关。

相当于每棵树，在某些领域（特征）上都是专家，经过各专家的举手表决，选出最终结果。

用途

特征选择
- eg：特征在树里面的结点深度作为权重
分类可以给出具体的概率值
回归

1.3 GBDT

Boosting is a powerful technique for combining multiple ‘base’ classifiers to produce
a form of committee whose performance can be significantly better than that of any
of the base classifiers.——《PRML》

1.3.1 Boosting

这里写图片描述

初始化每一维 $w{_i}{^{(1)}}=1/N$
对于每一个训练样本训练
- 通过合适的y最小化 $J m = \sum i = 1 N w i$

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的决策树及其演化算法

1 树形算法家族族谱1.1 决策树采用divide-and-conquer算法思想，递归构建特征选择——决策树生成——树剪枝互斥与完备：每个训练样本有且仅有一条路径规则最终可能训练出多个，可能一个没有；从所有可能决策树中选择最优是NP问题，因此现实中常用启发式（heuristic）方法Loss Function：正则化的极大似然函数树形表征特征空间表征 1.1.1 ID3算法采用信
复制链接

扫一扫

专栏目录

景语 CSDN认证博客专家 CSDN认证企业博客

码龄13年

35: 原创

104万+: 周排名

197万+: 总排名

25万+: 访问

: 等级

2268: 积分

64: 粉丝

97: 获赞

53: 评论

170: 收藏

私信

关注

热门文章

分类专栏

Python 1篇
数据结构与算法 6篇
Linux 13篇
C语言 19篇
其他 1篇
TCP/IP 1篇
C++ 4篇
Qt 1篇
大数据 1篇
Uber 1篇

最新评论

Python numpy数组扩展效率问题
MiracleYuki: concatenate和vstack都不够快，还是预先分配好快多了
在链表中使用头结点与尾指针
qq_53316180: 看你的这个图终于看明白了，，，就是说L本身就是一个只有地址的指针，当写出L的时候，默认就是说指向head节点，而L->next则是head->next对吧
QT子线程与主线程的信号槽通信
水上的树: 不就是一个结构体而已贴出来没关系
在链表中使用头结点与尾指针
BIGPAC: [code=csharp] if ( L->Head->Next == NULL) { L->Head->Next = L->Tail; } [/code] 请问最后一段代码的尾部插入部分的判断头指针是否为空的这部分代码是不是没必要写啊，因为我在执行时发现这里if内的语句不会被执行到（即使是第一次插入
在链表中使用头结点与尾指针
qq_47739817: 头指针是指向链表第一个结点的，跟有无头结点没有关系

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。