关闭

机器学习总结一

标签: 机器学习vc数据
849人阅读 评论(1) 收藏 举报
分类:

前段时间在网上看到了coursera公开课台大机器学习基石课程,比较全面而且清晰地将机器学习所需的基本知识、理论基础给与了讲解。foundation中有几个比较重要的概念和思想,先进行一下回顾,然后开启对后续技法课程的学习和总结。

1. VC dimension(VC维,非常重要的概念)

能够shutter 二分类问题的上限。也是衡量模型复杂度的工具(类似自由度的概念)。之所以这个概念比较重要是它能够解释为什么机器能够学习。

1),以概率统计中常用的手段:用sample来估计整体,机器学习也是如此,就是说,通过对采样得到的sample进行学习,能够用来对out of sample进行估计、处理、预测、分类等等。所谓的学习就是从一堆Hypothesis(set)中,利用sample,通过learning algorithm赛选出合适的hypothesis - g的过程。

2)塞选的标准通常是各种类型的error(0/1error,square error...),这些误差是用来调节W权重,最后得到比较小Error (in sample)的hypothesis(g)。

3)这个g只是在in sample上表现比较好,其实在in sample上表现好并没什么卵用,因为如果你只是处理in sample数据的话就没有必要进行机器学习,之所以使用机器学习,就是因为不可能得到所有的data,你只能sample一部分的sample。所以最好的g应当是在out of sample上表现好的。因为,我们并不能测得error in sample,所以最好的办法就是建立error in sample 与error out of sample的联系,能不能有一个upper bound来衡量两者之间的关系呢?答案是肯定,那就是Hoeffding's 不等式。

4)hoeffding不等式说明了一个问题,如果Hypothesis set中hypothesis能shutter很多种类(就是VC dimension很大),就会导致这个Error in sample与Error out of sample相差很大,也就是指模型复杂度很大。这样error in sample 你能做的很小,但是error out of sample会很大。

5)VC维大=>模型复杂度高=>error in sample 小=>模型不够平滑=>generalization能力弱=>error out of sample大=>overfitting=>模型并没有卵用。


2. Generalization(泛化能力)

1)衡量模型在out of sample上的表现;

2)通常曲线越平滑,泛化能力越强,但error in sample就可能越大,underfitting;曲线也复杂,error in sample就可能做的越小,但泛化能力越弱,overfitting;


3. Regularization(正则化)

1)用来控制模型复杂度,从而实现Error in sample与Error out  of sample的逼近,也就是使得既具有较好的精度,又有较好的泛化能力;

2)不同的regularizer对应不同的回归方法:L1,L2,...实际上就是一种惩罚措施。用来权衡是要好的error和好的generalization能力;


除了以上三个我觉得极为重要的概念和思想,还有一些主要内容比如:导致overfitting的几种原因:过度使用vc dimension,noise和limited data size N,解决overfitting的几种方法、技巧:validation(cross validation,leave one out validation, N-folder valiation...),data hinting, data cleaning/pruning, regularization, start from simple model等等。这里都不再进行总结。

待续

2015-7-8 18:12



0
0
查看评论

Coursea吴恩达《结构化机器学习项目》课程笔记(1)机器学习策略上篇

转载自http://blog.csdn.net/column/details/17767.html 结构化机器学习项目 — 机器学习策略(1) 1. 正交化 表示在机器学习模型建立的整个流程中,我们需要根据不同部分反映的问题,去做相应的调整,从而更加容易地判断出是在哪一个...
  • yc1203968305
  • yc1203968305
  • 2017-11-11 15:56
  • 143

机器学习--归纳总结

假设空间 归纳与演绎 布尔概念学习 版本空间 归纳偏好 线性回归 基本形式 线性回归 最小二乘参数估计 对数几率回归 单位阶跃函数 线性判别分析 多分类任务 神经网络 神经元模型 M-P神经元模型 激活函数 感知机与多层网络 误差逆传播算法 全局最小和局部极小 参数寻优方法 跳出局部极小 其他常见神...
  • second24
  • second24
  • 2017-09-01 09:43
  • 319

机器学习算法总结--提升方法

参考自: 《统计学习方法》 浅谈机器学习基础(上) 简介 提升方法(boosting)是一种常用的统计学习方法,在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提供分类的性能。 boosting和baggingboosting和bagging都是集成学习(en...
  • lc013
  • lc013
  • 2017-02-22 20:04
  • 952

看完《机器学习》的总结与心得

看完《机器学习》的总结与心得
  • yzqzoom
  • yzqzoom
  • 2016-07-31 23:27
  • 3223

机器学习常见算法个人总结

朴素贝叶斯 参考[1] 事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A [Math Processing Error]P(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B) 所以有: [Math Processing Error]P...
  • whywhom
  • whywhom
  • 2016-04-19 15:22
  • 2467

机器学习中常用到的知识点总结

写在前面的话 都是什么鬼,为什么学校的洗手液和老板用的沐浴乳是一个味道的,我现在在敲代码,整个手上都弥漫着一股老板的味道,深深的恐惧感油然而生 1.基本概念 监督学习(supervised learning) 分类问题 数据是有标签的 无监督学习 聚类问题, 数据没有标签 监督学习...
  • Grace_0642
  • Grace_0642
  • 2016-08-11 15:51
  • 1395

机器学习编程作业(exe1)总结

本博客内容是对Coursera上Andrew Ng的《机器学习》的编程作业的总结,本博文是在Matlab基础上对第一次编程作业的总结,随后的博文会对所有的编程作业进行一一总结。 本博文主要对作业中需要实现的代码进行讲解。 首先,对 脚本文件ex1.m用来执行单变量线性回归,ex1_multi....
  • u010510350
  • u010510350
  • 2016-08-21 22:33
  • 1128

【机器学习笔记1】Logistic回归总结

Logistic回归总结 作者:洞庭之子 微博:洞庭之子-Bing (2013年11月) PDF下载地址:http://download.csdn.net/detail/lewsn2008/6547463 1.引言 看了Stanford的Andrew Ng老师的机器学习公开课中关于L...
  • achuo
  • achuo
  • 2016-04-15 11:16
  • 1286

【机器学习总结】线性回归

线性回归是机器学习里面最常见的学习模型。基本线性方程:1.思想:   用一个线性组合的方程去拟合数据,系数则可以告诉我们哪些特征有用,哪些没用。 2.基本形式: 微分形式: y=a1x1+a2x2+...+adxd+dy = a_1x_1+a_2x_2+...+a_dx_d+d 矩阵形式: ...
  • xylander23
  • xylander23
  • 2017-03-29 11:38
  • 211

研一总结

从去年上研究生以来,渐渐地适应了研究生的生活。     这半年来做了些什么呢?
  • sunboyiris
  • sunboyiris
  • 2014-05-30 19:25
  • 1088
    个人资料
    • 访问:1914836次
    • 积分:22365
    • 等级:
    • 排名:第387名
    • 原创:271篇
    • 转载:947篇
    • 译文:3篇
    • 评论:192条
    博客专栏
    最新评论