1、最小二乘法的表达式:
假设研究的问题有n个样本。
X
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
T
X=(x_1,x_2,...,x_n)^T
X=(x1,x2,...,xn)T
Y
=
(
y
1
,
y
2
,
.
.
.
,
y
n
)
T
Y=(y_1,y_2,...,y_n)^T
Y=(y1,y2,...,yn)T
L
(
W
)
=
1
2
(
X
W
−
Y
)
T
(
X
W
−
Y
)
L(W)=\frac{1}{2}(XW-Y)^T(XW-Y)
L(W)=21(XW−Y)T(XW−Y)
2、极大似然估计和最小二乘法的关系?
个人认为,两者本质上是同一个问题,极大似然估计是针对概率密度函数
P
(
Y
∣
X
,
W
)
P(Y|X,W)
P(Y∣X,W)寻找到使得P最大的W,也就是最优的W。同理,最小二乘法是找到使得L(W)最小的W,也就是最优的W.
只不过二者的出发点不同,极大似然估计是从概率的角度出发,求解的也是已知的概率密度函数,而最小二乘法是优化的L(W)。
如果假设这个概率密度模型是
N
∼
(
μ
,
σ
2
)
N\sim (\mu,\sigma^2)
N∼(μ,σ2),那么根据正态分布的密度函数可以类比写出:
1
2
π
σ
e
x
p
(
−
(
Y
−
X
W
−
0
)
2
2
σ
2
)
→
1
2
π
σ
e
x
p
(
−
(
Y
−
μ
)
2
2
σ
2
)
,
其
中
假
设
μ
=
X
W
\frac{1}{\sqrt{2\pi \sigma}}exp(-\frac{(Y-XW-0)^2}{2\sigma^2})\to \frac{1}{\sqrt{2\pi \sigma}}exp(-\frac{(Y-\mu)^2}{2\sigma^2}),其中假设\mu = XW
2πσ1exp(−2σ2(Y−XW−0)2)→2πσ1exp(−2σ2(Y−μ)2),其中假设μ=XW.
根据正态分布的性质可得:
μ
\mu
μ越接近
Y
Y
Y即
(
Y
−
W
X
)
2
(Y-WX)^2
(Y−WX)2值越小,则概率值越大,也就是求解
μ
\mu
μ的极大似然估计。
3、为什么多项式回归在实际问题中表现不好?
多项式回归容易受到异常值的影响,在数据密度较少的区域会产生很大的波动。
4、什么是KKT条件?
Karush-Kuhn-Tucker (KKT)条件是非线性规划(nonlinear programming)最佳解的必要条件。也就是最优解
x
∗
x^*
x∗必满足KKT条件,但是满足KKT条件的点未必是最优解。
证明:
针对这样的一个不等式约束问题:
min
f
(
x
)
s
.
t
.
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
m
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
\min f(x)\\ s.t. g_i(x)\leq 0,i=1,2,...,m\\ h_j(x) = 0,j=1,2,...,l
minf(x)s.t.gi(x)≤0,i=1,2,...,mhj(x)=0,j=1,2,...,l
假设
x
∗
x*
x∗是最优解。同时定义可行域
K
=
x
∣
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
m
,
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
K={x| g_i(x)\leq 0,i=1,2,...,m,h_j(x) = 0,j=1,2,...,l}
K=x∣gi(x)≤0,i=1,2,...,m,hj(x)=0,j=1,2,...,l
- 如果 x ∗ x^* x∗在可行域内,那么该优化问题就退化为无约束优化问题。则 ∇ f ( x ∗ ) = 0 \nabla f(x^*) =0 ∇f(x∗)=0.
- 如果
x
∗
x^*
x∗在可行域边界上,则梯度
∇
f
(
x
)
\nabla f(x)
∇f(x)是指向可行域内部的,而
∇
g
(
x
)
\nabla g(x)
∇g(x)是指向可行域外部(这是因为
g
i
(
x
)
≤
0
g_i(x)\leq 0
gi(x)≤0)。
所以可以写出 ∇ f ( x ) = ∑ i λ i ∇ g i ( x ) \nabla f(x) = \sum_i \lambda_i \nabla g_i(x) ∇f(x)=∑iλi∇gi(x).
根据拉格朗日乘子法:
L ( x , λ , μ ) = f ( x ) + ∑ i λ i g i ( x ) + ∑ j μ j h j ( x ) L(x,\lambda,\mu) =f(x) + \sum_i \lambda_i g_i(x) + \sum_j\mu_j h_j(x) L(x,λ,μ)=f(x)+∑iλigi(x)+∑jμjhj(x)
所以可以写出最优化问题的KKT条件:
∇ x L = 0 ( 对 偶 条 件 ) h j ( x ) = 0 , j = 1 , 2 , . . . , l g i ( x ) ≤ 0 , i = 1 , 2 , . . . , m λ i ≥ 0 , i = 1 , 2 , . . . , m ( 对 偶 条 件 ) λ i g i ( x ) = 0 , i = 1 , 2 , . . . , m ( 互 补 松 弛 定 理 ) \nabla_x L = 0 (对偶条件)\\ h_j(x) = 0,j=1,2,...,l\\ g_i(x) \leq 0,i=1,2,...,m\\ \lambda_i \geq 0,i=1,2,...,m(对偶条件)\\ \lambda_i g_i(x) =0,i=1,2,...,m (互补松弛定理) ∇xL=0(对偶条件)hj(x)=0,j=1,2,...,lgi(x)≤0,i=1,2,...,mλi≥0,i=1,2,...,m(对偶条件)λigi(x)=0,i=1,2,...,m(互补松弛定理)
5、为什么引入原问题的偶问题?
- 灵敏度分析
- 根据弱对偶理论或者强对偶理论,帮助计算原问题。