Machine Learning-常见概念

哇哇哇好久没有更新了,难得今天不用加班就来整理一下近10天的学习内容呗,也没有落后很多,也就2节课嘻嘻~

这2次课讲的内容主要在一些“哲学”性的东西,机器学习的应用罗列,还有一些常用的算法,因为本人主攻金融数据分析挖掘及建模方向,所以这里会针对性地对一些重点进行归纳总结。


一、Occam’s Razor and Overfitting(奥卡姆剃刀原理)

指的是对训练数据最简单的解释就是最好的,训练的模型可能越简单越好,即如果有2个模型的效果效果差不多,那选择简单的那个。

640?wx_fmt=png


二、Overfiting(过拟合)

教科书式定义:为了得到一致假设而使假设变得过度严格称为过拟合。

通俗来说,就是对你输入的数据进行了非常严格的拟合,但模型的复用性不强,在测试集上效果差,模型泛化能力弱。大家可以看下下图。640?wx_fmt=png

(图来自周志华的《机器学习》)


三、Avoid Overfiting(避免过拟合)

1.获取更多数据

这个是解决过拟合最有效的办法,只要有足够多的数据,模型可以自我修复,更具泛化能力。

2.使用合适的模型

过拟合主要由2个原因造成:数据太少+模型太复杂,所以我们可以通过选择合适复杂度的模型来解决这个问题。

3.结合多个模型

其实就是建立很多个模型,训练他们,以他们的平均输出作为结果。

4.K折交叉验证

在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。

5.贝叶斯方法

640?wx_fmt=png

更多的内容可参考下面链接?

https://www.zhihu.com/question/59201590/answer/167392763


四、Supervised Learning(有监督学习)

是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。


五、Unsupervised Learning (无监督学习)

相反,即无监督学习,常见的就是clustering(聚类),对一对数据进行相似度聚合


六、Semi-Supervised Learning(半监督学习)

对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。


七、参考文献及资料

1)机器学习中用来防止过拟合的方法有哪些?

https://www.zhihu.com/question/59201590/answer/167392763

2)王丰:什么是无监督学习?

https://www.zhihu.com/question/23194489/answer/25028661


备注:内容来自于小象学院的《机器学习全新升级版》的课程内容,主讲人为秦曾昌老师。

 
 

—End—


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值