接触机器学习领域有一段时间了,跟过不少基础的课程,也看过一些入门的书籍和论文,现在想通过一门公开课系统的进入机器学习的领域,所以选择了advanced Machine Learning,这是哈佛大学的一门高级机器学习公开课,主要教材选用的是kevin Murphy Machine Learning: A Probabilistic Perspective, MIT Press 以及Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer. 希望通过这一个系列的学习,磨练自己的理论水平,同时通过kaggle平台的竞赛进行实际的联系操作。OK,咱们下面进入第一章, 本章需要完成以下的阅读任务:
Murphy Chapter 1 introduction
Bishop Chapter 1 introduction
Introduction
机器学习的类型
机器学习主要分为监督学习和无监督学习,监督学习可以分为分类任务和回归任务,而无监督学习没有明确的响应变量,需要我们自己去无标记的数据中发现知识。
分类
当应变量是一系列类别时,机器学习的任务就是分类,分类就是从自变量X到Y中学习到mapping,y ∈ {1,…,C} ,y属于类别变量,如果C=2,那么这就是一个二元分类问题(binary classification),如果C>2,那么这就是一个多元分类问题(multi-label classification),我们还可以用更加标准的定义该问题,假设X和y之间满足function:y = f(x),但是我们不可能完全准确的学习到这个function,所以我们的目标就是从中学到另外一个function:
用这样一个function来近似表示真实存在的function。分类问题用概率的观点来表示就是:
p
(
y
|
x
,
D
),在知道训练数据D,以及测试数据x的条件下,y为某个类别的概率。在做这个假设的同时,我们也需要一个model来实现预测的目标,所以最终的表达式:
p
(
y
|