监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测对应的输出。这个模型的一般形式为决策函数:
Y=f(X)
Y
=
f
(
X
)
或者条件概率分布:
P(Y|X)
P
(
Y
|
X
)
监督学习方法又可以分为生成方法和判别方法,所学到的模型称为生成模型和判别模型。
生成方法由数据学习联合概率分布 P(X,Y) P ( X , Y ) ,然后求出条件概率分布 P(Y|X) P ( Y | X ) 作为预测的模型,即生成模型:
P(Y|X)=P(X,Y)/P(X)
P
(
Y
|
X
)
=
P
(
X
,
Y
)
/
P
(
X
)
这样的方法之所以称为生成方法,是因为模型表示了给出输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型。
判别方法由数据直接学习决策函数 f(X) f ( X ) ,或者条件概率分布 P(Y|X) P ( Y | X ) 作为预测模型,即判别模型。判别方法关心的是对于给定的输入 X X ,应该预测什么样的输出,典型的判别模型包括K近邻法,感知机,决策树,逻辑斯帝回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。
生成方法的特点:生成方法可以还原出联合概率分布 P(X,Y) P ( X , Y ) ,而判别方法不能;生成方法的学习收敛速度更快。即当样本容量增加时,学到的模型可以更快的收敛于真是模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是条件概率 P(Y|X}) P(Y|X}) 或决策函数 f(x) f ( x ) ,直接面对预测,往往学习的准确率更高;由于直接学习 P(Y|X}) P(Y|X}) 或 f(x) f ( x ) ,可以对数据进行各程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
《统计学习方法》第一章总结:
- 1 统计学习是关于计算机基于数据构建概率统计模型并应用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
- 2 统计学习方法三要素——模型、策略和算法,对理解统计学习方法起到提纲挈领的作用。
- 3 本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发,假设数据是独立同步的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中提取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下最有准确性的预测。
- 4 统计学习中,进行模型选择或者提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化和交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。
- 5 分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、K近邻、朴素贝叶斯法、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔科夫模型和条件随机场。这些方法是主要的分类、标注及回归方法。它们又可以归类为生成方法和判别方法。