《机器学习那些事》摘要

最新推荐文章于 2021-04-13 00:17:05 发布

水滴杂谈

最新推荐文章于 2021-04-13 00:17:05 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/three_body/article/details/33320039

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

《机器学习那些事》介绍了一些机器学习应用中需要了解的“民间知识”。

原文为： A Few Useful Things to Know about Machine Learning

摘录若干要点：

1. 学习 = 表示 + 评价 + 优化

表示(Representation) : 学习器的假设空间(hypothesis space)

评价(Evaluation) : 评价函数用于判断分类器的优劣

优化(Optimization) : 在假设空间中寻找最优的学习器的算法

2. 泛化能力 (Generalization)

机器学习问题，与一般的优化问题不一样的地方在于，机器学习其实无法获得希望优化的那个函数！不能不使用训练误差等作为真实目标的替身。

2.a 坏消息，"没有免费的午餐"：学习器必须包含一些数据之外的知识或者假设，才能将数据泛化。没有学习器能够比在所有可能的布尔函数中随机猜测的结果更优

2.b 好消息，我们要学习的函数并非均匀地来自于所有可能的函数！有些宽泛的假设就能起到很大作用：平滑，相似样例相似类别，有限依赖，有限复杂度等

泛化误差，可以分解为偏置(Bias)和方差(Variance)。偏置度量了学习器倾向于一直学习相同错误的程度。方差则度量了学习器倾向于忽略真实信号、学习随机事物的程度

避免过拟合的一些方式：交叉验证，正则项，增加新结构时采取统计显著性检验

3. 维度灾难

3.a 坏消息，维度灾难(Curse of dimensionality): 许多在低维空间表现很好的算法，对于高维输入变得计算不可行

3.b 好消息，非均匀性的祝福(Blessing of nonuniformity)：大多数应用中，样例在空间中并非均匀分布，而是集中在一个低维流形上或者附近

4. 数据 + 特征 + 算法

收集更多的数据 - 大量数据的笨算法，要胜过数据量较少的聪明算法

构建最好的特征集合 - 特征工程(Feature Engineering)是关键

设计更好的学习算法 - 采用更聪明算法的回报比期望要低。本质上所有的学习器都是将临近的样例归类到同一个类别中。

5. 集成学习 - 要学习多个模型，而不仅仅是一个

不同应用的最佳学习器并不相同。将多个学习器结合，结果会更好。

5.a Bagging - 轻度增加偏置的同时，极大地降低反差

5.b Boosting - 每次训练都倾向于分错的样例

6. 简单并不意味着准确

模型参数的数量和过拟合之间并无直接联系，如集成学习

一个更成熟的认识是将复杂度等同于假设空间的大小。更小的假设空间允许用更短的代码来表示假设。更短的假设可以泛化得更好。

一个在较大的假设空间搜索较少假设的学习器，比一个在较小空间中搜索较多假设的学习器更不容易过拟合。

7. 可表示并不意味着可学习

8. 相关并不意味着因果

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《机器学习那些事》摘要

《机器学习那些事》介绍了一些机器学习应用中需要了解的“民间知识”。原文为： A Few Useful Things to Know about Machine Learning摘录若干要点：1. 学习 = 表示 + 评价 + 优化表示(Representation) : 学习器的假设空间(hypothesis space) 评价(Evalua
复制链接

扫一扫

专栏目录

水滴杂谈 CSDN认证博客专家 CSDN认证企业博客

码龄11年

37: 原创

-: 周排名

-: 总排名

11万+: 访问

: 等级

1509: 积分

35: 粉丝

11: 获赞

4: 评论

29: 收藏

私信

关注

热门文章

分类专栏

最新评论

深度学习(Deep Learning) 学习资料
MilkLeong: 楼主你好，请问你有Deep learning of representations, AAAI 2013 - Bengio 这篇文章的PDF吗，我科学上网也打不开链接，能否分享一下表情包
明天太阳照常升起的概率是多少？
大号小白兔: 感谢博主分享
文本索引与检索
littlecrab123: 关于文本检索，我之前听朋友说过dtSearch Engine。说是I全球领先的文本检索工具控件。我进网站一看确实比较强大，不过不是开源的，要收费。
写给妹妹的编程札记 6 - 搜索实战: 单词博弈
expectances: 我觉得你的算法很好，讲解也很透彻，非常感谢。不过我觉得“考虑下，搜索树中可能的字母序列数目是多少呢？……”这一段，好像有点没表述到位。这么说是否合适：对任一输入，如果字符串长度为k，则非空子串的个数为2^k-1。如果给原字符串的每位字符加上一个权值，从右到左为1、2、4、8、……、2^k-1，得到一个k位的二进制数；则各子串对应的值互不相同。从而可以申请一个含有2^k-1个元素的数组v[0:2^k-1]，该数组的每个下标对应一个子串，该下标处的值（除v[0]外）表示一个子串的运算结果，其中v[0]对应空串不起作用——也可以记录最终结果。…… 当然，这不重要，只是刚看的时候有点迷惘，啰嗦一下。看了你算法，受益良多，再次感谢。.
出自上帝之手的精妙算法 - Algorithm from THE BOOK (1)
feliciafay: Thanks, 学习了~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。