Machine Learning-常见概念

最新推荐文章于 2022-01-16 20:33:50 发布

Pysamlam

最新推荐文章于 2022-01-16 20:33:50 发布

阅读量199

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pysamlam/article/details/100973587

版权

哇哇哇好久没有更新了，难得今天不用加班就来整理一下近10天的学习内容呗，也没有落后很多，也就2节课嘻嘻~

这2次课讲的内容主要在一些“哲学”性的东西，机器学习的应用罗列，还有一些常用的算法，因为本人主攻金融数据分析挖掘及建模方向，所以这里会针对性地对一些重点进行归纳总结。

一、Occam’s Razor and Overfitting（奥卡姆剃刀原理）

指的是对训练数据最简单的解释就是最好的，训练的模型可能越简单越好，即如果有2个模型的效果效果差不多，那选择简单的那个。

640?wx_fmt=png

二、Overfiting（过拟合）

教科书式定义：为了得到一致假设而使假设变得过度严格称为过拟合。

通俗来说，就是对你输入的数据进行了非常严格的拟合，但模型的复用性不强，在测试集上效果差，模型泛化能力弱。大家可以看下下图。 640?wx_fmt=png

（图来自周志华的《机器学习》）

三、Avoid Overfiting（避免过拟合）

1.获取更多数据

这个是解决过拟合最有效的办法，只要有足够多的数据，模型可以自我修复，更具泛化能力。

2.使用合适的模型

过拟合主要由2个原因造成：数据太少+模型太复杂，所以我们可以通过选择合适复杂度的模型来解决这个问题。

3.结合多个模型

其实就是建立很多个模型，训练他们，以他们的平均输出作为结果。

4.K折交叉验证

在机器学习中，将数据集A分为训练集（training set）B和测试集（test set）C，在样本量不充足的情况下，为了充分利用数据集对算法效果进行测试，将数据集A随机分为k个包，每次将其中一个包作为测试集，剩下k-1个包作为训练集进行训练。

5.贝叶斯方法

640?wx_fmt=png

更多的内容可参考下面链接?

https://www.zhihu.com/question/59201590/answer/167392763

四、Supervised Learning（有监督学习）

是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

五、Unsupervised Learning (无监督学习)

相反，即无监督学习，常见的就是clustering（聚类），对一对数据进行相似度聚合

六、Semi-Supervised Learning（半监督学习）

对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常极大于有标签数据数量（这也是符合现实情况的）。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。

七、参考文献及资料

1）机器学习中用来防止过拟合的方法有哪些？

https://www.zhihu.com/question/59201590/answer/167392763

2）王丰：什么是无监督学习？

https://www.zhihu.com/question/23194489/answer/25028661

备注：内容来自于小象学院的《机器学习全新升级版》的课程内容，主讲人为秦曾昌老师。

—End—

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning-常见概念

哇哇哇好久没有更新了，难得今天不用加班就来整理一下近10天的学习内容呗，也没有落后很多，也就2节课嘻嘻~这2次课讲的内容主要在一些“哲学”性的东西，机器学习的应用罗列，还...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。