基本内容
微积分
线性代数
概率论与数理统计
凸优化
微积分
1.极限定义:
数学记号
lim
x
→
x
0
f
(
x
)
=
L
\underset{x\to {{x}_{0}}}{\mathop{\lim }}f(x)=L
x→x0limf(x)=L
精确定义
对
于
任
意
正
数
ϵ
>
0
,
存
在
正
数
δ
,
使
得
任
何
满
足
∣
x
−
x
0
∣
<
δ
的
x
,
都
有
∣
f
(
x
)
−
L
∣
<
ϵ
.
对于任意正数\epsilon>0,存在正数\delta,使得任何满足| x -x_{0}|<\delta的x,都有 | f(x)-L|<\epsilon.
对于任意正数ϵ>0,存在正数δ,使得任何满足∣x−x0∣<δ的x,都有∣f(x)−L∣<ϵ.
2.导数定义:
导数的概念:
f
′
(
x
0
)
=
lim
x
→
x
0
f
(
x
)
−
f
(
x
0
)
x
−
x
0
f'({{x}_{0}})=\underset{x\to {{x}_{0}}}{\mathop{\lim }}\,\frac{f(x)-f({{x}_{0}})}{x-{{x}_{0}}}
f′(x0)=x→x0limx−x0f(x)−f(x0) (1)
函数导数的本质:通过极限的概念对函数的局部线性逼近
3.泰勒公式
设函数
f
(
x
)
f(x)
f(x)在点
x
0
{{x}_{0}}
x0处的某邻域内具有
n
+
1
n+1
n+1阶导数,则对该邻域内异于
x
0
{{x}_{0}}
x0的任意点
x
x
x,在
x
0
{{x}_{0}}
x0与
x
x
x之间至少存在一个
ξ
\xi
ξ,使得:
f
(
x
)
=
f
(
x
0
)
+
f
′
(
x
0
)
(
x
−
x
0
)
+
1
2
!
f
′
′
(
x
0
)
(
x
−
x
0
)
2
+
⋯
f(x)=f({{x}_{0}})+{f}'({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2!}{f}''({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+\cdots
f(x)=f(x0)+f′(x0)(x−x0)+2!1f′′(x0)(x−x0)2+⋯
+
f
(
n
)
(
x
0
)
n
!
(
x
−
x
0
)
n
+
R
n
(
x
)
+\frac{{{f}^{(n)}}({{x}_{0}})}{n!}{{(x-{{x}_{0}})}^{n}}+{{R}_{n}}(x)
+n!f(n)(x0)(x−x0)n+Rn(x)
其中
R
n
(
x
)
=
f
(
n
+
1
)
(
ξ
)
(
n
+
1
)
!
(
x
−
x
0
)
n
+
1
{{R}_{n}}(x)=\frac{{{f}^{(n+1)}}(\xi )}{(n+1)!}{{(x-{{x}_{0}})}^{n+1}}
Rn(x)=(n+1)!f(n+1)(ξ)(x−x0)n+1称为
f
(
x
)
f(x)
f(x)在点
x
0
{{x}_{0}}
x0处的
n
n
n阶泰勒余项。
令
x
0
=
0
{{x}_{0}}=0
x0=0,则
n
n
n阶泰勒公式
f
(
x
)
=
f
(
0
)
+
f
′
(
0
)
x
+
1
2
!
f
′
′
(
0
)
x
2
+
⋯
+
f
(
n
)
(
0
)
n
!
x
n
+
R
n
(
x
)
f(x)=f(0)+{f}'(0)x+\frac{1}{2!}{f}''(0){{x}^{2}}+\cdots +\frac{{{f}^{(n)}}(0)}{n!}{{x}^{n}}+{{R}_{n}}(x)
f(x)=f(0)+f′(0)x+2!1f′′(0)x2+⋯+n!f(n)(0)xn+Rn(x)……(1)
其中
R
n
(
x
)
=
f
(
n
+
1
)
(
ξ
)
(
n
+
1
)
!
x
n
+
1
{{R}_{n}}(x)=\frac{{{f}^{(n+1)}}(\xi )}{(n+1)!}{{x}^{n+1}}
Rn(x)=(n+1)!f(n+1)(ξ)xn+1,
ξ
\xi
ξ在0与
x
x
x之间.(1)式称为麦克劳林公式
线性代数
1.线性空间与基:
实系数线性空间是一个由向量组成的集合, 向量之间可以做加减
法, 向量与实数之间可以做乘法, 而且这些加,减,乘运算要求满
足常见的交换律和结合律. 我们也可以类似地定义其他系数的线
性空间。
2.
n
\mathbf{n}
n维向量空间的基变换公式及过渡矩阵
若 α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,⋯,αn与 β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,⋯,βn是向量空间 V V V的两组基,则基变换公式为:
( β 1 , β 2 , ⋯ , β n ) = ( α 1 , α 2 , ⋯ , α n ) [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋯ ⋯ ⋯ ⋯ c n 1 c n 2 ⋯ c n n ] = ( α 1 , α 2 , ⋯ , α n ) C (\beta_{1},\beta_{2},\cdots,\beta_{n}) = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})\begin{bmatrix} c_{11}& c_{12}& \cdots & c_{1n} \\ c_{21}& c_{22}&\cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1}& c_{n2} & \cdots & c_{{nn}} \\\end{bmatrix} = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})C (β1,β2,⋯,βn)=(α1,α2,⋯,αn)⎣⎢⎢⎡c11c21⋯cn1c12c22⋯cn2⋯⋯⋯⋯c1nc2n⋯cnn⎦⎥⎥⎤=(α1,α2,⋯,αn)C
其中 C C C是可逆矩阵,称为由基 α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,⋯,αn到基 β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,⋯,βn的过渡矩阵。
3.坐标变换公式
若向量
γ
\gamma
γ在基
α
1
,
α
2
,
⋯
,
α
n
\alpha_{1},\alpha_{2},\cdots,\alpha_{n}
α1,α2,⋯,αn与基
β
1
,
β
2
,
⋯
,
β
n
\beta_{1},\beta_{2},\cdots,\beta_{n}
β1,β2,⋯,βn的坐标分别是
X
=
(
x
1
,
x
2
,
⋯
,
x
n
)
T
X = {(x_{1},x_{2},\cdots,x_{n})}^{T}
X=(x1,x2,⋯,xn)T,
Y = ( y 1 , y 2 , ⋯ , y n ) T Y = \left( y_{1},y_{2},\cdots,y_{n} \right)^{T} Y=(y1,y2,⋯,yn)T 即: γ = x 1 α 1 + x 2 α 2 + ⋯ + x n α n = y 1 β 1 + y 2 β 2 + ⋯ + y n β n \gamma =x_{1}\alpha_{1} + x_{2}\alpha_{2} + \cdots + x_{n}\alpha_{n} = y_{1}\beta_{1} +y_{2}\beta_{2} + \cdots + y_{n}\beta_{n} γ=x1α1+x2α2+⋯+xnαn=y1β1+y2β2+⋯+ynβn,则向量坐标变换公式为 X = C Y X = CY X=CY 或 Y = C − 1 X Y = C^{- 1}X Y=C−1X,其中 C C C是从基 α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,⋯,αn到基 β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,⋯,βn的过渡矩阵。
4. n \mathbf{n} n个变量 x 1 , x 2 , ⋯ , x n \mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}} x1,x2,⋯,xn的二次齐次函数
f ( x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i y j f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}} f(x1,x2,⋯,xn)=∑i=1n∑j=1naijxiyj,其中 a i j = a j i ( i , j = 1 , 2 , ⋯ , n ) a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n) aij=aji(i,j=1,2,⋯,n),称为 n n n元二次型,简称二次型. 若令 x = [ x 1 x 1 ⋮ x n ] , A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋯ ⋯ ⋯ ⋯ a n 1 a n 2 ⋯ a n n ] x = \ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix} x= ⎣⎢⎢⎢⎡x1x1⋮xn⎦⎥⎥⎥⎤,A=⎣⎢⎢⎡a11a21⋯an1a12a22⋯an2⋯⋯⋯⋯a1na2n⋯ann⎦⎥⎥⎤,这二次型 f f f可改写成矩阵向量形式 f = x T A x f =x^{T}{Ax} f=xTAx。其中 A A A称为二次型矩阵,因为 a i j = a j i ( i , j = 1 , 2 , ⋯ , n ) a_{{ij}} =a_{{ji}}(i,j =1,2,\cdots,n) aij=aji(i,j=1,2,⋯,n),所以二次型矩阵均为对称矩阵,且二次型与对称矩阵一一对应,并把矩阵 A A A的秩称为二次型的秩。
5.惯性定理,二次型的标准形和规范形
(1) 惯性定理
对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负惯性指数与所选变换无关,这就是所谓的惯性定理。
(2) 标准形
二次型 f = ( x 1 , x 2 , ⋯ , x n ) = x T A x f = \left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax} f=(x1,x2,⋯,xn)=xTAx经过合同变换 x = C y x = {Cy} x=Cy化为 f = x T A x = y T C T A C f = x^{T}{Ax} =y^{T}C^{T}{AC} f=xTAx=yTCTAC
y = ∑ i = 1 r d i y i 2 y = \sum_{i = 1}^{r}{d_{i}y_{i}^{2}} y=∑i=1rdiyi2称为 f ( r ≤ n ) f(r \leq n) f(r≤n)的标准形。在一般的数域内,二次型的标准形不是唯一的,与所作的合同变换有关,但系数不为零的平方项的个数由 r ( A ) r(A) r(A)唯一确定。
(3) 规范形
任一实二次型 f f f都可经过合同变换化为规范形 f = z 1 2 + z 2 2 + ⋯ z p 2 − z p + 1 2 − ⋯ − z r 2 f = z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2} f=z12+z22+⋯zp2−zp+12−⋯−zr2,其中 r r r为 A A A的秩, p p p为正惯性指数, r − p r -p r−p为负惯性指数,且规范型唯一。
概率论与数理统计
1.随机变量及概率分布
取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变量,概率分布通常指分布函数或分布律.
离散随机变量
假设随机变量 X 的取值域为
{
x
i
}
i
=
1
∞
\left\{ x_i \right\}^\infty_{i=1}
{xi}i=1∞,那么对于任何一个
x
i
x_i
xi,事件
X
=
x
i
X = x_i
X=xi 的概率记为
P
(
x
i
)
P(x_i)
P(xi).
对于
Ω
Ω
Ω 的任何一个子集
{
x
k
i
}
i
=
1
∞
\left\{ x_{k_i }\right\}^\infty_{i=1}
{xki}i=1∞,事件
X
∈
S
X ∈ S
X∈S 的概率为
P
(
S
)
=
∑
i
=
1
∞
P
(
x
i
)
P(S) = \sum_{i=1}^\infty P(x_i)
P(S)=∑i=1∞P(xi)
对于离散随机变量,概率为概率函数的求和.
连续随机变量
假设随机变量
X
X
X 的取值域为
R
R
R,那么对于几乎所有
x
∈
R
x ∈ R
x∈R, 事件
X
=
x
X = x
X=x 的概率
P
(
X
=
x
)
P(X = x)
P(X=x) 都等于 0. 所以我们转而定义概率密度
函数
f
:
R
→
[
0
,
∞
)
f : R → [0, ∞)
f:R→[0,∞). 对于任何区间
(
a
,
b
)
(a, b)
(a,b), 事件
X
∈
(
a
,
b
)
X ∈ (a, b)
X∈(a,b) 的概
率为
P
(
(
a
,
b
)
)
=
∫
a
b
f
(
x
)
d
x
P((a, b)) = ∫^b_a f(x)dx
P((a,b))=∫abf(x)dx
- 对于连续型随机变量,概率为概率密度函数的积分.
- 不论是离散还是连续型随机变量, 概率函数和概率密度函数
的定义域即为这个随机变量的值域.
2.分布函数的概念与性质
定义: F ( x ) = P ( X ≤ x ) , − ∞ < x < + ∞ F(x) = P(X \leq x), - \infty < x < + \infty F(x)=P(X≤x),−∞<x<+∞
(1) 0 ≤ F ( x ) ≤ 1 0 \leq F(x) \leq 1 0≤F(x)≤1
(2) F ( x ) F(x) F(x)单调不减
(3) 右连续 F ( x + 0 ) = F ( x ) F(x + 0) = F(x) F(x+0)=F(x)
(4) F ( − ∞ ) = 0 , F ( + ∞ ) = 1 F( - \infty) = 0,F( + \infty) = 1 F(−∞)=0,F(+∞)=1
3.条件分布
(1)条件概率:
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
P(B|A)=\frac{P(AB)}{P(A)}
P(B∣A)=P(A)P(AB),表示
A
A
A发生的条件下,
B
B
B发生的概率。
(2)全概率公式:
P
(
A
)
=
∑
i
=
1
n
P
(
A
∣
B
i
)
P
(
B
i
)
,
B
i
B
j
=
∅
,
i
≠
j
,
⋃
n
i
=
1
B
i
=
Ω
P(A)=\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}}),{{B}_{i}}{{B}_{j}}}=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup }}}\,{{B}_{i}}=\Omega
P(A)=i=1∑nP(A∣Bi)P(Bi),BiBj=∅,i=j,i=1⋃nBi=Ω
(3) Bayes公式:
P
(
B
j
∣
A
)
=
P
(
A
∣
B
j
)
P
(
B
j
)
∑
i
=
1
n
P
(
A
∣
B
i
)
P
(
B
i
)
,
j
=
1
,
2
,
⋯
,
n
P({{B}_{j}}|A)=\frac{P(A|{{B}_{j}})P({{B}_{j}})}{\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,\cdots ,n
P(Bj∣A)=i=1∑nP(A∣Bi)P(Bi)P(A∣Bj)P(Bj),j=1,2,⋯,n
注:上述公式中事件
B
i
{{B}_{i}}
Bi的个数可为可列个。
凸优化
简介
优化问题的一般形式
最小化:
f
0
(
x
)
f_0(x)
f0(x)
条件:
f
i
(
x
)
≤
b
i
,
i
=
1
,
⋅
⋅
⋅
,
m
.
f_i(x) ≤ b_i , i = 1, · · · , m.
fi(x)≤bi,i=1,⋅⋅⋅,m.
其中
f
0
(
x
)
f_0(x)
f0(x) 为目标函数,条件里的不等式是限制条件.
凸优化问题的一般形式
一个优化问题如果满足如下条件则为凸优化问题
- 凸优化问题的条件, f 0 , f 1 , ⋅ ⋅ ⋅ , f m f_0, f_1, · · · , f_m f0,f1,⋅⋅⋅,fm 都是凸函数.
- 凸优化问题的特点, 局部最优等价于全局最优.
举例
极大似然估计
如果
L
(
µ
,
σ
)
L(µ, σ)
L(µ,σ) 是一个极大似然估计问题中的似然函数,其中
µ
,
σ
µ, σ
µ,σ
分别是期望和方差,那么极大似然估计的问题转化为
最小化:
−
L
(
µ
,
σ
)
-L(µ, σ)
−L(µ,σ)
条件:
σ
≥
0
σ ≥ 0
σ≥0
最小二乘法
如果
A
n
×
k
A_{n×k}
An×k 是一个矩阵,
b
∈
R
n
b ∈ R_n
b∈Rn 是一个向量, 对于
x
∈
R
k
x ∈ R_k
x∈Rk
最小化:
f
0
(
x
)
=
∣
A
x
−
b
∣
2
f_0(x) = |Ax -b|^2
f0(x)=∣Ax−b∣2
凸集合与凸函数
凸集合定义
如果一个集合
Ω
Ω
Ω 中任何两个点之间的线段上任何一个点还属于
Ω
Ω
Ω, 那么
Ω
Ω
Ω 就是一个凸集合.i.e.
λ
x
1
+
(
1
−
λ
)
x
2
∈
Ω
,
∀
x
1
,
x
2
∈
Ω
,
λ
∈
(
0
,
1
)
λx_1 + (1 - λ)x_2 ∈ Ω, ∀x_1, x_2 ∈ Ω, λ ∈(0,1)
λx1+(1−λ)x2∈Ω,∀x1,x2∈Ω,λ∈(0,1)
凸函数定义
如果一个函数
f
f
f 定义域
Ω
Ω
Ω 是凸集,而且对于任何两点. 以及两
点之间线段上任意一个点都有
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
∀
x
1
,
x
2
∈
Ω
,
λ
∈
(
0
,
1
)
f(λx_1 + (1 - λ)x_2) ≤ λf(x_1) + (1 -λ)f(x_2) ∀x_1, x_2 ∈ Ω, λ ∈ (0, 1)
f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2)∀x1,x2∈Ω,λ∈(0,1)
凸组合
对于任何
n
n
n 个点
{
x
i
}
i
=
1
n
,
以
及
权
重
系
数
{
w
i
}
i
=
1
n
\left\{ x_i \right\}_{i=1}^n, 以及权重系数 \left\{ w_i \right\}_{i=1}^n
{xi}i=1n,以及权重系数{wi}i=1n. 若权重系数非
负
w
i
≥
0
w_i ≥ 0
wi≥0而且
∑
i
=
1
n
w
i
=
1
\sum^n_{i=1}w_i=1
∑i=1nwi=1
,则线性组合
S
=
∑
i
=
1
n
w
i
x
i
S = ∑^n_{i=1} w_ix_i
S=i=1∑nwixi
为一个凸组合.
凸集合性质
假
设
Ω
是
一
个
凸
集
合
,
那
么
Ω
任
意
n
个
点
的
凸
组
合
仍
包
含
于
Ω
.
假设 Ω 是一个凸集合,那么 Ω 任意 n 个点的凸组合仍包含于 Ω.
假设Ω是一个凸集合,那么Ω任意n个点的凸组合仍包含于Ω.
凸函数性质:琴生 (Jensen) 不等式
如
果
f
:
Ω
→
R
是
一
个
凸
函
数
,
则
对
于
任
何
{
x
i
∈
Ω
}
i
=
1
n
,
以
及
凸
组
合
∑
i
=
1
n
w
i
x
i
都
有
如果 f : Ω → R 是一个凸函数,则对于任何 \left\{x_i ∈ Ω\right\}^n_{i=1}, 以及凸 组合∑^n_{i=1} w_ix_i 都有
如果f:Ω→R是一个凸函数,则对于任何{xi∈Ω}i=1n,以及凸组合∑i=1nwixi都有
∑
i
=
1
n
w
i
f
(
x
i
)
≥
f
(
∑
i
=
1
n
w
i
x
i
)
∑^n_{i=1} w_if(x_i) ≥ f(∑^n_{i=1} w_ix_i)
i=1∑nwif(xi)≥f(i=1∑nwixi)
凸优化问题求解 (KKT)
我们来看一下如果强对偶性满足的话,这些最优化点应该满足何
种条件. 这一部分中我们假定所有的函数都是可微函数.
如果
x
∗
,
(
λ
∗
,
ν
∗
)
x^∗,(λ^∗ , ν^∗)
x∗,(λ∗,ν∗)分别是原问题与对偶问题的最优解,那么首先
这些点应该满足可行域条件
- f i ( x ∗ ) ≤ 0 f_i(x^∗) ≤ 0 fi(x∗)≤0
- h i ( x ∗ ) = 0 h_i(x^∗) = 0 hi(x∗)=0
- λ i ∗ ≥ 0 λ^∗_i ≥0 λi∗≥0
其次我们已经知道
d
∗
=
g
(
λ
∗
,
ν
∗
)
d^∗ = g(λ^∗ , ν^∗)
d∗=g(λ∗,ν∗)
≤
f
0
(
x
∗
)
+
∑
i
=
1
m
λ
i
∗
f
i
(
x
∗
)
+
∑
i
=
1
p
ν
i
∗
h
i
(
x
∗
)
≤ f_0(x^∗ ) +∑^m_{i=1} λ^∗_i f_i(x^∗ ) +∑^p_{i=1} ν^∗_i h_i(x^∗)
≤f0(x∗)+∑i=1mλi∗fi(x∗)+∑i=1pνi∗hi(x∗)
=
f
0
(
x
∗
)
+
∑
i
=
1
m
λ
i
∗
f
i
(
x
∗
)
= f_0(x^∗ ) +∑^m_{i=1} λ^∗_i f_i(x^∗)
=f0(x∗)+∑i=1mλi∗fi(x∗)
≤
f
0
(
x
∗
)
=
p
∗
≤ f_0(x^∗) = p^∗
≤f0(x∗)=p∗
于
是
d
∗
=
p
∗
意
味
着
上
述
不
等
式
全
都
是
等
式
.
于是 d^∗ = p^∗ 意味着上述不等式全都是等式.
于是d∗=p∗意味着上述不等式全都是等式.
凸优化问题求解 (KKT)
KKT 条件
f
i
(
x
∗
)
≤
0
,
i
=
1
,
⋅
⋅
⋅
,
m
f_i(x^∗) ≤ 0, i = 1, · · · , m
fi(x∗)≤0,i=1,⋅⋅⋅,m
h
i
(
x
∗
)
=
0
,
i
=
1
,
⋅
⋅
⋅
,
p
h_i(x^∗ ) = 0, i = 1,· · · , p
hi(x∗)=0,i=1,⋅⋅⋅,p
λ
i
∗
≥
0
,
i
=
1
,
⋅
⋅
⋅
,
m
λ^∗_i ≥ 0, i = 1, · · · , m
λi∗≥0,i=1,⋅⋅⋅,m
λ
i
∗
f
i
(
x
∗
)
=
0
,
i
=
1
,
⋅
⋅
⋅
,
m
λ^∗_i f_i(x^∗ ) = 0, i = 1, · · · , m
λi∗fi(x∗)=0,i=1,⋅⋅⋅,m
∇
x
L
(
x
∗
,
λ
∗
,
ν
∗
)
=
0
∇_xL(x^∗ , λ^∗ , ν^∗ ) = 0
∇xL(x∗,λ∗,ν∗)=0
KKT 条件使用
对于凸优化问题,KKT 条件是
x
∗
,
(
λ
∗
,
ν
∗
)
x^∗, (λ^∗ , ν^∗)
x∗,(λ∗,ν∗)分别作为原问题和
对偶问题的最优解的充分必要条件.
对于非凸优化问题,KKT 条件仅仅是必要而非充分.
4.Newton法:
牛顿法是一种求解局部极值的算法
- 这种方法只能寻找局部极值
- 这种方法要求必须给出一个初始点 x 0 x_0 x0
- 数学原理:牛顿法使用二阶逼近
- 牛顿法对局部凸的函数找到极小值,对局部凹的函数找到极大值,对局部不凸不凹的可能会找到鞍点。
- 牛顿法要求估计二阶导数.
- 牛顿法:二次逼近
首先在初始点 x 0 x_0 x0 处,写出二阶泰勒级数
f ( x ) = f ( x 0 ) + f ′ ( x 0 ) ( x − x 0 ) + 1 2 ! f ′ ′ ( x 0 ) ( x − x 0 ) 2 + o ( x − x 0 ) 2 f(x)=f({{x}_{0}})+{f}'({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2!}{f}''({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+o(x-x_0)^2 f(x)=f(x0)+f′(x0)(x−x0)+2!1f′′(x0)(x−x0)2+o(x−x0)2
令
Δ
x
=
x
−
x
0
\Delta x=x-x_0
Δx=x−x0,我们知道关于
∆
x
∆x
∆x 的二次函数
g
(
∆
x
)
g(∆x)
g(∆x) 的极值点为
−
f
′
(
x
0
)
f
′
′
(
x
0
)
-\frac{f\prime(x_0)}{f\prime\prime(x_0)}
−f′′(x0)f′(x0)
那么本着逼近的精神
f
(
x
)
f(x)
f(x) 的极值点估计在
x
0
−
f
′
(
x
0
)
f
′
′
(
x
0
)
x_0-\frac{f\prime(x_0)}{f\prime\prime(x_0)}
x0−f′′(x0)f′(x0)附近,于是定义
x
1
=
x
0
−
f
′
(
x
0
)
f
′
′
(
x
0
)
x_1=x_0-\frac{f\prime(x_0)}{f\prime\prime(x_0)}
x1=x0−f′′(x0)f′(x0) ,并重复此步骤得到序列
x
n
=
x
n
−
1
−
f
′
(
x
n
−
1
)
f
′
′
(
x
n
−
1
)
x_n=x_{n-1}-\frac{f\prime(x_{n-1})}{f\prime\prime(x_{n-1})}
xn=xn−1−f′′(xn−1)f′(xn−1)
当初始点选的比较好的时候
l
i
m
x
→
∞
x
n
\underset{x \rightarrow \infty}{lim}x_n
x→∞limxn收敛于一个局部极值