目标:给定X,给出判别结果Y,即对 P ( Y ∣ X ) P(Y|X) P(Y∣X)进行建模,有以下两种方法
一 ,生成模型
不直接对
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)进行建模,而是先建立联合概率
P
(
Y
,
X
)
P(Y,X)
P(Y,X),然后有
P
(
Y
∣
X
)
=
P
(
Y
,
X
)
P
(
X
)
=
P
(
X
∣
Y
)
P
(
Y
)
P
(
X
)
P(Y|X)=\frac{P(Y,X)}{P(X)} = \frac{P(X|Y)P(Y)}{P(X)}
P(Y∣X)=P(X)P(Y,X)=P(X)P(X∣Y)P(Y),我们的目的是在给定X下,寻求最大的Y,则上式与
P
(
X
)
P(X)
P(X)无关,且
P
(
Y
∣
X
)
=
arg
min
Y
P
(
X
∣
Y
)
P
(
Y
)
P(Y|X) = \mathop{\arg\min}\limits_{Y}P(X|Y)P(Y)
P(Y∣X)=YargminP(X∣Y)P(Y)
其中
P
(
Y
)
P(Y)
P(Y)可由观测数据获得,
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)可以由极大似然估计给出
典型的模型有:
- 朴素贝叶斯
- 隐马尔科夫模型
二 ,判别模型
直接对
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)建模,由数据直接学习决策函数
Y
=
f
(
X
)
Y = f(X)
Y=f(X),或者条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)作为预测的模型
基本思想:有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。
典型模型有:
- K近邻
- 决策树
- 支持向量机
三,区别和联系
生成式:学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),可以从统计的角度表示数据分布情况,反应同类数据本身的相似度。收敛速度更快,当样本容量增加时,学习到的模型可以更快收敛域真实模型。参数和非参数模型均适用
判别式:直接学习决策函数 Y = f ( X ) Y = f(X) Y=f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X),无法反映数据本身的特性。寻找不同类别之间的最优分类面,反映异类数据之间的差异。直接预测,学习的准确度更高。只适用于参数模型
生成式模型可以得到判别式模型,反之不能。