综述
假如我们提取了一个数据集 { ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , . . . , ( x ( N ) , y ( N ) ) } \{(x^{(1)}, y^{(1)}),(x^{(2)}, y^{(2)}), ..., (x^{(N)}, y^{(N)})\} {(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}, 这些都是从联合分布 P ( X , Y ) P(X,Y) P(X,Y)中提取出来的,且相互独立,现在无法把真实的联合分布计算出来,只能够通过用现有的数据集尽量构造一个联合分布去逼近真实的联合分布,问题的关键在于如何去寻找这个联合分布的参数。
目前有两种观点,极大似然和极大后验。
极大似然
要寻找的参数是未知确定的,在
x
(
i
)
x^{(i)}
x(i)发生的情况下
y
(
i
)
y^{(i)}
y(i) 发生的概率可以用
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
p\left ( y^{(i)}|x^{(i)} ;\theta \right )
p(y(i)∣x(i);θ)来表示,这里用“;”的意思就是因为
θ
\theta
θ是一个常量,这就是Ng 所说的“parameterized by
θ
\theta
θ”的意思,而后这些训练样本又是彼此独立的,因而整个训练集发生的概率,也就是所说的似然概率
L
(
θ
)
L(\theta)
L(θ),是这些
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
p\left ( y^{(i)}|x^{(i)} ;\theta \right )
p(y(i)∣x(i);θ)的乘积,即如下公式,
L
(
θ
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
L(\theta)= \prod_{i=1}^{m}p\left ( y^{(i)}|x^{(i)} ;\theta \right )
L(θ)=i=1∏mp(y(i)∣x(i);θ)
对于上述公式有两种求解方式:
- 直接求取条件概率 p ( y ∣ x ) p(y|x) p(y∣x),这种方式对应的模型为判别模型(线性回归、逻辑斯谛回归)。
- 先求取联合概率 p ( x , y ) p(x,y) p(x,y),再通过贝叶斯公式求取条件概率 p ( y ∣ x ) p(y|x) p(y∣x),这种方式对应的模型为生成模型(朴素贝叶斯、隐马尔可夫模型)。
判别模型中最小二乘法背后的假设是联合分布为高斯分布,逻辑斯谛回归背后的假设是联合分布为伯努利分布。
极大后验
要寻找的参数虽然是未知不确定的,在 x ( i ) x^{(i)} x(i)发生的情况下 y ( i ) y^{(i)} y(i) 发生的概率可以用 p ( y ( i ) ∣ x ( i ) , θ ) p\left ( y^{(i)}|x^{(i)} , \theta \right ) p(y(i)∣x(i),θ)来表示,与上文不同的地方在于这里用的是“,”,而不是“;”,就证明 y ( i ) y^{(i)} y(i)发生通用会受到 θ \theta θ的影响,因而这里的 L ( θ ) L(\theta) L(θ)就变为了如下公式,
L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , θ ) ⋅ p ( θ ) L(\theta)= \prod_{i=1}^{m}p\left ( y^{(i)}|x^{(i)} ,\theta \right )\cdot p(\theta) L(θ)=i=1∏mp(y(i)∣x(i),θ)⋅p(θ)
极大后验的具体实践是为模型添加正则项,其功效为防止参数的泛滥,如果不对参数进行先验分布的假设,那么参数所有取值的概率都是相同的,很容易过拟合。参数也有自己的假设分布,岭回归中添加的正则项就是因为假设参数服从高斯分布,而lasso回归中的添加正则项因为假设参数服从拉普拉斯分布。