拉格朗日乘子法 Lagrange Multiplier
举个栗子:
假如有方程
x
2
y
=
3
x^2y=3
x2y=3
是下图等高线中的一条:
梯度向量:
我们相求上面的点到原点的最短距离;
引入同心圆,可以看做函数
f
(
x
,
y
)
=
x
2
+
y
2
f(x,y) = x^2 + y^2
f(x,y)=x2+y2的等高线
这是等高线的发线:
在圆与曲线相切的时候,梯度向量平行;
要求函数 f 在 g 约束下的极值问题:
m
i
n
m
a
x
f
s
.
t
.
g
=
0
minmax f \\ s.t. g = 0
minmaxfs.t.g=0
可以列出方程求解:
{
▽
f
=
λ
▽
g
g
=
0
\left\{\begin{matrix} \triangledown f = \lambda\triangledown g\\ g=0 \end{matrix}\right.
{▽f=λ▽gg=0
多个约束条件
另一个栗子:
朴素贝叶斯 Naive Bayes
重要的假设
朴素贝叶斯对条件概率分布做了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯也因此得名,具体的,条件独立性假设如下:
P
(
X
=
x
∣
Y
=
y
)
=
P
(
X
1
=
x
1
,
X
2
=
x
2
,
.
.
.
,
X
n
=
x
n
∣
Y
=
y
)
=
∏
j
=
1
n
P
(
X
j
=
x
j
∣
Y
=
y
)
P(X=x|Y=y) = P(X1=x1,X2 = x2,...,Xn=xn|Y=y) = \prod_{j=1}^nP(Xj=xj | Y=y)
P(X=x∣Y=y)=P(X1=x1,X2=x2,...,Xn=xn∣Y=y)=j=1∏nP(Xj=xj∣Y=y)
则有以下结论:
P
(
Y
=
y
,
X
1
=
x
1
,
X
2
=
x
2
,
.
.
.
,
X
n
=
x
n
)
=
P
(
Y
=
y
)
∏
i
=
1
n
P
(
X
j
=
x
j
∣
Y
=
y
)
=
p
Y
(
y
)
∏
j
=
1
n
p
X
j
∣
Y
(
x
j
∣
y
)
P(Y=y,X1=x1,X2=x2,...,Xn=xn) = P(Y=y)\prod_{i=1}^nP(Xj=xj|Y=y)\\ =p_Y(y)\prod_{j=1}^np_{X_j | Y}(x_j | y)
P(Y=y,X1=x1,X2=x2,...,Xn=xn)=P(Y=y)i=1∏nP(Xj=xj∣Y=y)=pY(y)j=1∏npXj∣Y(xj∣y)
省略下标的形式
P
(
Y
=
y
,
X
1
=
x
1
,
.
.
.
,
X
n
=
x
n
)
=
p
(
y
)
∏
j
=
1
n
p
j
(
x
j
∣
y
)
P(Y=y,X1=x1,...,Xn=xn) = p(y)\prod_{j=1}^np_j(x_j|y)
P(Y=y,X1=x1,...,Xn=xn)=p(y)j=1∏npj(xj∣y)
应用极大似然估计估计相应概率
p
(
y
)
=
c
o
u
n
t
(
y
)
m
=
∑
i
=
1
m
1
(
y
(
i
)
=
y
)
m
,
∀
y
p(y) =\frac{ count(y)}{m} = \frac{\sum_{i=1}^m \mathbb{1}(y^{(i)} = y)}{m}, \forall y
p(y)=mcount(y)=m∑i=1m1(y(i)=y),∀y
p
j
(
x
∣
y
)
=
c
o
u
n
t
j
(
x
∣
y
)
c
o
u
n
t
(
u
=
y
)
=
∑
i
=
1
m
1
(
y
(
i
)
=
y
∧
x
(
i
)
=
x
)
∑
i
=
1
m
1
(
y
(
i
)
=
y
)
p_j(x|y) = \frac{ count_j(x | y)}{count(u=y)} = \frac{\sum_{i=1}^m \mathbb{1}(y^{(i)} = y \wedge x^{(i)} = x)}{\sum_{i=1}^m \mathbb{1}(y^{(i)} = y )}
pj(x∣y)=count(u=y)countj(x∣y)=∑i=1m1(y(i)=y)∑i=1m1(y(i)=y∧x(i)=x)
朴素贝叶斯分类器
y = f ( x ) = arg max c k P ( Y = c k ) ∏ j P ( X j = x j ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X j = x j ∣ Y = c k ) y = f(x) = \arg\max_{ck} \frac{P(Y=ck)\prod_j P(X_j = x_j|Y=ck)}{\sum_kP(Y=ck)\prod_jP(X_j = x_j | Y = ck)} y=f(x)=argckmax∑kP(Y=ck)∏jP(Xj=xj∣Y=ck)P(Y=ck)∏jP(Xj=xj∣Y=ck)
由于分母都时相同的,因此
y
=
arg
max
c
k
P
(
Y
=
c
k
)
∏
j
P
(
X
j
=
x
j
∣
Y
=
c
k
)
y = \arg\max_{ck} P(Y=ck)\prod_j P(X_j = x_j|Y=ck)
y=argckmaxP(Y=ck)j∏P(Xj=xj∣Y=ck)
拉普拉斯平滑
用极大似然估计会出现要估计概率为0的情况,或者0/0的情况,是的后验概率出现偏差。
使用拉普拉斯平滑
k 是y有多少种可能的取值,
v
j
v_j
vj是第j个feature有多少种可能的取值