机器学习总结一

原创 2015年07月08日 17:27:49

前段时间在网上看到了coursera公开课台大机器学习基石课程,比较全面而且清晰地将机器学习所需的基本知识、理论基础给与了讲解。foundation中有几个比较重要的概念和思想,先进行一下回顾,然后开启对后续技法课程的学习和总结。

1. VC dimension(VC维,非常重要的概念)

能够shutter 二分类问题的上限。也是衡量模型复杂度的工具(类似自由度的概念)。之所以这个概念比较重要是它能够解释为什么机器能够学习。

1),以概率统计中常用的手段:用sample来估计整体,机器学习也是如此,就是说,通过对采样得到的sample进行学习,能够用来对out of sample进行估计、处理、预测、分类等等。所谓的学习就是从一堆Hypothesis(set)中,利用sample,通过learning algorithm赛选出合适的hypothesis - g的过程。

2)塞选的标准通常是各种类型的error(0/1error,square error...),这些误差是用来调节W权重,最后得到比较小Error (in sample)的hypothesis(g)。

3)这个g只是在in sample上表现比较好,其实在in sample上表现好并没什么卵用,因为如果你只是处理in sample数据的话就没有必要进行机器学习,之所以使用机器学习,就是因为不可能得到所有的data,你只能sample一部分的sample。所以最好的g应当是在out of sample上表现好的。因为,我们并不能测得error in sample,所以最好的办法就是建立error in sample 与error out of sample的联系,能不能有一个upper bound来衡量两者之间的关系呢?答案是肯定,那就是Hoeffding's 不等式。

4)hoeffding不等式说明了一个问题,如果Hypothesis set中hypothesis能shutter很多种类(就是VC dimension很大),就会导致这个Error in sample与Error out of sample相差很大,也就是指模型复杂度很大。这样error in sample 你能做的很小,但是error out of sample会很大。

5)VC维大=>模型复杂度高=>error in sample 小=>模型不够平滑=>generalization能力弱=>error out of sample大=>overfitting=>模型并没有卵用。


2. Generalization(泛化能力)

1)衡量模型在out of sample上的表现;

2)通常曲线越平滑,泛化能力越强,但error in sample就可能越大,underfitting;曲线也复杂,error in sample就可能做的越小,但泛化能力越弱,overfitting;


3. Regularization(正则化)

1)用来控制模型复杂度,从而实现Error in sample与Error out  of sample的逼近,也就是使得既具有较好的精度,又有较好的泛化能力;

2)不同的regularizer对应不同的回归方法:L1,L2,...实际上就是一种惩罚措施。用来权衡是要好的error和好的generalization能力;


除了以上三个我觉得极为重要的概念和思想,还有一些主要内容比如:导致overfitting的几种原因:过度使用vc dimension,noise和limited data size N,解决overfitting的几种方法、技巧:validation(cross validation,leave one out validation, N-folder valiation...),data hinting, data cleaning/pruning, regularization, start from simple model等等。这里都不再进行总结。

待续

2015-7-8 18:12



版权声明:本文为博主原创文章,转载请注明出处http://blog.csdn.net/lg1259156776/。

机器学习逻辑回归模型总结——从原理到sklearn实践

0x00 基本原理逻辑回归算法,从名字上看似乎是个回归问题,但实际上逻辑回归是个典型的分类算法。 对于分类问题,一般都是一些离散变量,且y的取值如下: y∈{0,1,2,3,...,n}y \in...

图形图像 机器学习 人脸识别 总结

  • 2017年11月27日 17:48
  • 2.18MB
  • 下载

机器学习总结(二):梯度消失和梯度爆炸

神经网络的训练过程通常分为两个阶段:前向传播和反向传播。 前向传播如下图所示,原理比较简单 上一层的神经元与本层的神经元有连接,那么本层的神经元的激活等于上一层神经元对应的权值进行加权和运算,...

斯坦福机器学习前三周概念总结

  • 2017年06月19日 18:25
  • 210KB
  • 下载

机器学习总结

  • 2015年12月09日 23:14
  • 287KB
  • 下载

机器学习基本算法通俗总结

机器学习基本算法通俗总结 本文章参考内容 1斯坦福大学Andrew Ng大帝的机器学习早期教程及其在coursera上的视频 2Peter Harrington 的机器学习实战 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习总结一
举报原因:
原因补充:

(最多只允许输入30个字)