机器学习基石笔记
正在Cousera上学习林轩田老师的机器学习基石,该课程与Anrew Ng的Machine Learning相比,强调数学推导,有些难度。整理这些笔记,一方面是为了加深理解,尝试着将学到的东西说清楚;另一方面,希望能帮到后面学习该课程的同学。
Marcovaldo
功不唐捐,壮志无违。
展开
-
机器学习基石第九讲:linear regression
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)机器学习基石第十讲介绍线性回归问题(linear regression problem),从这一讲开始课程介绍具体的机器学习算法。后面的大部分内容,博主已经学过,所以笔记可能会简略。Linear Regression Problem借助信用卡发放的问题来介绍线性回归,不过这一次不再是分类原创 2016-04-26 11:29:35 · 5213 阅读 · 1 评论 -
机器学习基石第八讲:noise and error
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)机器学习基石第八讲主要介绍噪声和误差度量,笔记整理在下面。Noise and Probabilistic Target现实中的数据很可能含有噪声(noise),例如前面的信用卡发放问题中,有的顾客符合发放标准但没有发给,或者同样情况的顾客有人发了有人没法,再或者顾客的信息不正确等等,VC原创 2016-04-25 21:22:20 · 6698 阅读 · 0 评论 -
机器学习基石第七讲:the vc dimension
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)Definition of VC Dimension上一讲我们找到了B(N,k)的上限,拿它和Nk−1N^{k-1}做一个比较,发现当N够大时,前者比后者小得多。上一讲我们提到了VC bound:在dataset上,H中任意一个hypothesis发生坏事情的概率不超过一个很小很小的定值原创 2016-04-24 22:08:02 · 7604 阅读 · 0 评论 -
机器学习基石第六讲:theory of generalization
机器学习基石第六讲继续讨论“学习是否可行的问题”。Restriction of Break Point继续前面的讨论,我们看mH(N)m_H(N)是否会有一个很小的增长速度。回顾前面的四种成长函数及其break point。我们知道k是一个成长函数的break point,那比k大的值全是break point。mH(N)m_H(N)是一个hypothesis在N个数据点上可以产生的dichotom原创 2016-04-23 22:39:18 · 5317 阅读 · 0 评论 -
机器学习基石第五讲:training versus testing
博客已经迁移至Marovaldo’s blog (http://marcovaldong.github.io/)机器学习基石第五讲继续讨论“学习是否可行”这一问题,这一讲比较难,建议大家多看两遍。Recap and Preview前面的课程得出了这样一个结论:在训练数据集足够大,H中包含的hypothesis个数有限的前提下,我们可以证明每一个hypothesis的EinE_{in}和EoutE_{原创 2016-04-22 22:40:45 · 5186 阅读 · 0 评论 -
机器学习基石第四讲:feasibility of learning
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)刚刚完成机器学习基石的第四节,这一节讨论机器学习的可行性,用到了Hoeffding’s inequality等概率的知识,需要仔细揣摩。笔记整理在下面。Learning is Impossible?前面的课程中曾提到过说学习可能是不可行的,为此我们还通过推导来证明PLA算法是否会停下来。原创 2016-04-20 13:46:43 · 5452 阅读 · 1 评论 -
机器学习基石第三讲:types of learning
刚刚完成机器学习基石的第三讲,这一讲主要介绍了机器学习的分类,对何种问题应该使用何种机器学习方法。将笔记整理在下面。Learning with Different Output Space前面讲的信用卡发放问题是一个是非题,也就是说最后的输出只有两种,是一个二元分类(binary classification)。下图中给出了更多的二元分类问题的例子,对于这类问题我们要做的就是找到一个hypothes原创 2016-04-19 16:21:02 · 4619 阅读 · 1 评论 -
机器学习基石第二讲:learn to answer yes/no
刚刚完成了机器学习基石的第二讲,主要介绍了机器学习的定义,PLA算法和pocket PLA算法。下面将笔记整理在下面。Perceptron Hypothesis Set延续前面的信用卡发放问题。银行已有的用户数据可能包括用户的年龄、年薪、工作时长、债务情况等特征信息,我们分别用x1x_1原创 2016-04-18 17:18:06 · 6550 阅读 · 0 评论 -
机器学习基石第一讲:the learning problem
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)Andrew Ng的Machine Learning比较简单,已经看完。林田轩的机器学习基石更多的是从概率论的角度来介绍机器学习,之前的视频已经听了大半,但好多都是模棱两可。现在从头开始,认真整理笔记,笔记的结构遵从课程视频的结构。下面是机器学习基石的第一讲:the learning p原创 2016-04-18 09:44:04 · 5260 阅读 · 0 评论 -
《机器学习基石》作业一
已入机器学习坑,下决心走下去。《统计学习方法》一书介绍了十种算法,不算太难,但仍需重读以仔细研究其中的推导。《机器学习实战》一书则给出了各种算法的具体实例,Python实现,适合入门者了解算法的具体应用。另在Cousera上选了两门课:斯坦福Andrew Ng的《Machine Learning》、台大林田轩的《机器学习基石》和《机器学习技法》。Andrew的课程简单,省去了很多的数学推导和证明,但原创 2016-03-24 10:08:39 · 5282 阅读 · 1 评论