《机器学习实战》1章-机器学习概览

最新推荐文章于 2024-08-20 00:18:14 发布

一只勤劳的小鸡

最新推荐文章于 2024-08-20 00:18:14 发布

阅读量171

点赞数

分类专栏：机器学习文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26144863/article/details/113479189

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言：

本文是对蜥蜴书第二版第一章学习概要。

一、什么是机器学习

利用经验E来学习任务T，性能是P，如果针对任务T的性能P随着经验E不断增长，则称为机器学习。 -Tom Mitchell

二、机器学习分类

Ⅰ、按照是否有监督

有监督学习

有标签
无监督学习

无标签
半监督学习

部分有标签
强化学习

有奖惩。

Ⅱ、按照是否动态增量学习（持续学习）

在线学习

不良的数据可能会使系统性能降低。
批量学习

Ⅲ、按研究对象

基于实例学习
基于模型学习

三、机器学习的挑战

Ⅰ、数据数量

Ⅱ、数据是否具有代表性

极端数据的取舍
重要数据是否缺少

Ⅲ、低质量数据

错误、异常、噪声
缺少重要特征

Ⅳ、无关特征

选择有用的特征
对特征进行提取与整合
收集新数据创建新特征

Ⅴ、过拟合

正则化：regularization 😉 通过约束模型使其更简单，降低过拟合的风险。

超参数：hyper-parameter 😉
是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。
通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

简化模型
1. 选择较少参数模型，
2. 减少属性
3. 约束模型
收集更多数据
减少噪声，修复错误数据，清除异常值。

Ⅵ、欠拟合

选择更多参数、更强大的模型
更好的特征集
减少约束。

三、测试与验证

样本分成独立的三部分

验证集（validation set ) 25%

验证集用来确定模型参数。
训练集（train set）50%
测试集（test set）25%

测试集则检验最终选择最优的模型的性能如何。

当样本总量少的时候，上面的划分就不合适了。

常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。

留一法

就是将样本打乱，然后均匀分成K份，轮流选择其中K－1份训练，剩余的一份做验证，计算预测误差平方和，最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N，就是留一法（leave one out）。

一只勤劳的小鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》1章-机器学习概览

前言：本文是对蜥蜴书第二版第一章学习概要。一、什么是机器学习利用经验E来学习任务T，性能是P，如果针对任务T的性能P随着经验E不断增长，则称为机器学习。 -Tom Mitchell二、机器学习分类Ⅰ、按照是否有监督有监督学习有标签无监督学习无标签半监督学习部分有标签强化学习有奖惩。Ⅱ、按照是否动态增量学习（持续学习）在线学习不良的数据可能会使系统性能降低。批量学习Ⅲ、按研究对象基于实例学习基于模型学习三、机器学习的挑战Ⅰ、数据
复制链接

扫一扫

专栏目录

一只勤劳的小鸡 CSDN认证博客专家 CSDN认证企业博客

码龄10年

27: 原创

53万+: 周排名

83万+: 总排名

3万+: 访问

: 等级

573: 积分

17: 粉丝

36: 获赞

20: 评论

131: 收藏

私信

关注

热门文章

分类专栏

最新评论

2021-04-29
CSDN-Ada助手: "非常感谢CSDN博主的分享，这篇博客介绍了2021-04-29这个时间点的重要性，让我对时间管理有了更深刻的认识。我觉得博主可以考虑写一篇关于时间管理的技术博文，结合自己的实践经验，分享一些有效的时间管理方法和工具，帮助其他用户更好地规划自己的时间，提高效率和效益。相信会有更多读者受益于这样的文章，期待看到博主的下一篇作品。” 为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
【python 爬虫】豆瓣评论全爬取含展开
JordingZh: 发现个小问题，爬虫第20行代码，用 result + lists的方式会导致顺序错乱，想堆栈一样，新的在最上面，如果对顺序有要求的可以改成 lists +result
Fetching @maven； Resolving and fetching the transitive closure of 21 artif
Brillanza: 又没了？
Fetching @maven； Resolving and fetching the transitive closure of 21 artif
可疑的墨水: 大佬，相关的文章可以再发下吗，一直卡在maven这儿了
python批量命名变量、创建顺序变量名
一只勤劳的小鸡: 已经改了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。