统计学习方法三要素:模型、策略、算法
分类一
生成模型
生成方法有数据学习联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),然后求出条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X) 作为预测的模型,即生成模型:
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
P(Y|X)=\frac{P(X,Y)}{P(X)}
P(Y∣X)=P(X)P(X,Y)典型的生成模型有:不素贝叶斯法、隐马尔可夫模型。
生成方法可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),而判别方法则不能。生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别模型
判别方法由数据直接学习决策函数 f ( X ) f(X) f(X) 或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型,即判别模型。典型的判别模型包括: k k k 近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场。
判别方法直接学习的是条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X) 或决策函数 f ( X ) f(X) f(X),直接面对预测,往往学习的准确率更高;由于直接学习 P ( Y ∣ X ) P(Y|X) P(Y∣X) 或 f ( X ) f(X) f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
分类二
分类问题
当输出变量 Y Y Y 取有限个离散值时,预测的问题称为分类问题。输入变量 X X X 可以是离散的,也可以是连续的。当分类的类别是多个时,称为多分类问题;只有正负两个类时,称为二分类问题。
许多统计学习的方法可以用于分类,例如: k k k 近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯蒂回归模型、支持向量机、提升方法、神经网络等。
标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够观测序列给出标记序列作为预测。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
回归问题
回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型,可分为线性回归和非线性回归。
回归问题常用的统计学习方法有:线性回归模型、SVR 等。
分类三
监督学习
用带有标签(label)和特征的训练数据集来训练的机器学习模型。
非监督学习
用只有特征没有标签的数据集进行训练。
半监督学习
用于训练的数据集中一部分有标签,一部分没有。
强化学习
用于训练的数据中没有标签,而是用“奖励“”来替代。
参考文献
[1] 李航. 统计学习方法. 清华大学出版社. 2012