自学深度学习(二)机器学习基础2

在我们生活的世界,人类的大脑是不同的。比如爱因斯坦的大脑就要超出地球上就大多数的人类,再比如有些人可以考上清华北大名校,而我这样的学酥却做不到。所以说每个人的思维方式、以及大脑的容量都各不相同,甚至说有的人付出了比高材生更多的努力却得不到回报,因为他的学习方法不够好。

其实机器学习也是这样,机器学习的算法不同,所得到的结果也会不同。对于相同的数据来说,不同的算法会影响其最终训练的模型的好坏。反过来说,相同的算法在训练不同的数据的情况下,也会出现好坏之分。所以我们在学习深度学习的道路上也要掌握良好的方法……

我们训练出的模型不好,一般会有两种情况:一种是过拟合,另一种是欠拟合。这两种情况就好比两种人,一种是只知道死学的书呆子,而另一种是学习吊儿郎当的半吊子。

过拟合举个例子:一天我拿了一个柳树叶和杨树叶,我告诉书呆子这都是叶子,第二天我拿了一个枫树叶问书呆子这是叶子吗?他回答我说不是,我问他为何不是叶子,他告诉我因为它不是细长的形状也不是椭圆形所以不是叶子。他就陷入了一个误区,他学习得太好了,以至于他把别人都不会在意无关紧要的细节都学习了,所以他不认识叶子。

欠拟合举个例子:一天我抱了很多猫给半吊子,我说这都是猫,第二天我抱了一条狗过来,我问他这是猫吗?他说是。我问他为何是猫?他说因为有毛的都是猫。他也一样陷入了一个误区,那就是学习得太差了,以至于连猫的基本特征都没学习到。

所以说过拟合就是学习器把样本学得太好了,以至于把训练样本一些特性而不是共性给找出来了,导致了泛化能力下降,无法学习出普遍的规律来。欠拟合呢就是连训练样本的一般性质都没学习好,以至于学习的模型比较差。欠拟合一般有很多办法进行解决,简单粗暴的就是加大决策树的分支或者增加神经网络的层数和轮数等等。而过拟合却不是容易消除的,机器学习的问题通常是NP(非确定性多项式),我们基本无法做到相信 1=1.1 这种问题,所以我们能做的只有缓解过拟合,比如Dropout方法等等。

什么是一个好的模型呢。举个例子,学习机器学习的人都看过西瓜书(没看过请看一看),周老师在西瓜书里写了很多的公式,但是你会发大多公式都没有推导的过程需要自己推导,但是你又会发现即使没有推导过程,机器学习的公式也都一个不差。这就是好书,没有过多的细节,却又能把所有的知识写进去。但你要说这是最好的书,那我不敢苟同,时代在进步人类在发展,我相信人们终究能跳出思维的局限,写出更好的书。所以说训练模型也是这样,没有最好的算法,只有更好的算法。

任何一个机器学习模型都会存在着误差,你要是说你训练的模型能够做到百分之百的精确度,那你就可以被送进非正常人类研究所好好研究研究你了。所谓的误差就是你用测试集所测试的结果与真实值之间的差异。评估模型的标准也就是看误差是否小。

评估模型之前我们要掌握评估模型的方法,方法一般就是针对测试集来说的。最常见的方法就是交叉验证法。咱就介绍常见的,不常见的咱不学,咱可不能过拟合。

交叉验证法先将数据集D划分为k个大小相同的互斥子集(无法平均分成k份,那就分成k个大小相似的),每次拿出其中的一份作为测试集进行测试,其余的k-1份作为训练集进行训练,然后根据测试集给出的结果与真实值对比得出性能度量的结果。就这样进行k次,也叫k折交叉验证。举个简单的例子--5折交叉验证:

无论是交叉验证法还是其他的评估方法,都必须保证!!!要尽可能保持数据分布的一致性,不然很有可能得不到正确的结果,比如说我有一组数据要做分类问题,其中有一类数据占了总数的十分之一,假如我用10折交叉验证将这十分之一的数据分到了一起,可想而知,当这十分之一作为测试集的时候将会无法测试出正确的值。所以说保持分布的一致性很重要,不要因小失大。

本人才疏学浅,忘大佬们多多指正,方便我及时修改。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值