机器学习-读书笔记

最新推荐文章于 2024-07-09 19:51:06 发布

lzwdfas

最新推荐文章于 2024-07-09 19:51:06 发布

阅读量320

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/lzwdfas/article/details/60466529

版权

2 篇文章 0 订阅

订阅专栏

如果采样出的每个子集都完全不同，每个基学习器都只用到一小部分训练数据，便不能进行有效的学习—>> 特定类型样本的预测不能通过不同的基学习器共同作用来实现，也就失去了提升（boost）的目的，—>> 采用相互有交叠的采样子集，（但是为了体现差异，又不能交叠太多！！–>> 如何把握?）
63.2% ?? –> 如何按照需求调整？重复的怎么办？
决策树：
- 注意标记叶节点的方式，是该节点还是该节点的父节点所含样本最多的类别？？
- C4.5算法不是使用增益率最大的属性，而是实用了一个启发式：从高于平均增益的属性中选择增益率最高的
- 数据集的纯度除了用熵表示，还能用基尼指数度量:CART决策树
- 划分节点带来泛化性能的提升，怎么度量？？<—> 与过拟合成双成对,这里采用留出法，是否有其他方法？？？
随机森林
- 核心：样本扰动，属性扰动（样本扰动是因为RF构建是在Bagging的基础上）
- UCI数据

关注