【机器学习】西瓜书笔记（一）

最新推荐文章于 2024-01-29 23:53:50 发布

我的大名王二狗

最新推荐文章于 2024-01-29 23:53:50 发布

阅读量297

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30193419/article/details/89068071

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 机器学习算法分类：

监督学习（分类（输出离散），回归（输出连续））；

非监督学习（聚类）；

强化学习

2 No Free Lunch 定理

任意两个机器学习算法的期望性能都可能相同。（不管一个有多智能，另一个有多笨拙）

寓意：要谈论算法的相对优劣，必须要针对具体的学习问题，学习算法自身的归纳偏好与问题相匹配往往会起到决定性作用。

3 训练集和验证集的划分

留出法：

数据集 = 训练集 + 验证集

训练集 ^ 验证集 = 空

一般2/3-4/5为训练集，其余为验证集。

交叉验证法：

将数据集D分为K个互斥子集，每个子集均尽可能保持数据分布的一致性，随意取一个子集就可以作为验证集。

自举法：

4 过拟合

训练次数过多容易过拟合，就是说训练样本学的太好了，把训练集自身的一些特点也当做了所有数据共有的性质来学习。过拟合会导致模型泛化性变差，可以通过剪枝的方式来处理。

5 剪枝

剪枝分为预剪枝和后剪枝，预剪枝就是依据信息增益准则，通过对比剪枝前后验证集的精度决定要不要剪枝，预剪枝降低了过拟合的风险，减少了训练开销，但是会导致泛化性能下降，带来欠拟合的风险。但是在其基础上进行后续划分会带来性能显著提高。

后剪枝基于生成的完整决策树，之后通过对比剪枝前后验证集的精度决定要不要剪枝，后剪枝欠拟合风险小，泛化性能比较好，但是训练时间开销比较大。

6 决策树泛化性能

研究表明，信息增益，增益率，基尼指数等决策树的划分指标对决策树的尺寸影响大，对决策树的泛化性能影响不大，而剪枝合理的话，决策树性能会提高25%

7 神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互联的网络，他的组织能够模拟生物神经系统对真实世界物体做交互反应。

8 BP算法过拟合问题缓解办法

（1）早一点停止训练

将数据集分为训练集和验证集，训练集用来计算梯度、权重、阈值，验证集用来估计误差，当训练集误差降低但验证集误差升高的时候就停止训练，

（2）正则化

在误差目标函数中增加一个用来描述网络复杂度的项，例如：增加权重和阈值的平方项，训练过程将会偏好比较小的连接权重，使得网络输出更加平滑，对过拟合有所缓解。

我的大名王二狗

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】西瓜书笔记（一）

1 机器学习算法分类：监督学习（分类（输出离散），回归（输出连续））；非监督学习（聚类）；强化学习2 No Free Lunch 定理任意两个机器学习算法的期望性能都可能相同。（不管一个有多智能，另一个有多笨拙）寓意：要谈论算法的相对优劣，必须要针对具体的学习问题，学习算法自身的归纳偏好与问题相匹配往往会起到决定性作用。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。