Turing Machine 图灵机
-
基本思想:用机器模拟人类用纸笔数学运算过程
-
图灵机构造:纸带,读写头,控制指令,状态存储器
-
图灵完备:可计算的问题图灵机都能计算,满足这样要求的逻辑系统、装置或编程语言就叫图灵完备
文章参考:https://www.cs.virginia.edu/~robins/Turing_Paper_1936.pdf
视频参考:https://www.bilibili.com/video/BV1gQ4y1K7ur
P与NP问题
-
P问题:能在多项式时间内解决的问题
-
NP问题:能在多项式时间验证答案正确与否
-
NP-hard:比所有NP问题都难的问题
-
NP-complete:是个NP问题,同时所有的NP问题都能够约化到它
-
P ?= NP:只需证明一个NPC问题是P问题,一般意义上认为P!= NP
详细参考:http://www.matrix67.com/blog/archives/105
视频参考:https://www.bilibili.com/video/BV1WW411H7nH
Jensen Inequality 詹森不等式
对于任意点集
x
i
{x_i}
xi,若
λ
i
>
0
\lambda_i > 0
λi>0,且
∑
i
λ
i
=
1
\sum\limits_i \lambda_i =1
i∑λi=1,则凸函数 g(x) 满足:
g
(
∑
i
=
1
M
λ
i
x
i
)
≤
∑
i
=
1
M
λ
i
g
(
x
i
)
g(\sum\limits_{i=1}^M \lambda_i x_i) \leq \sum\limits_{i=1}^M \lambda_i g(x_i)
g(i=1∑Mλixi)≤i=1∑Mλig(xi)
若考虑
λ
i
\lambda_i
λi为随机变量的概率密度,对于凸函数
g
(
x
)
g(x)
g(x),则
g
(
E
[
X
]
)
≤
E
[
g
(
x
)
]
g(E[X]) \leq E[g(x)]
g(E[X])≤E[g(x)]
Jacobi Matrix 雅克比矩阵
-
导数就是线性空间的线性变换,是微分空间到微分空间的线性映射,是微分映射的坐标表示
{ d x = ∂ x ∂ θ 1 d θ 1 + ∂ x ∂ θ 2 d θ 2 d y = ∂ y ∂ θ 1 d θ 1 + ∂ y ∂ θ 2 d θ 2 即 : [ d x d y ] = [ ∂ x ∂ θ 1 ∂ x ∂ θ 2 ∂ y ∂ θ 1 ∂ y ∂ θ 2 ] [ d θ 1 d θ 2 ] \left\{ \begin{array}{ccc} dx = \frac{\partial x}{\partial \theta_1}d\theta_1 + \frac{\partial x}{\partial \theta_2}d\theta_2 \\dy = \frac{\partial y}{\partial \theta_1}d\theta_1 + \frac{\partial y}{\partial \theta_2}d\theta_2\end{array}\right. \\即:\left[\begin{matrix}dx\\dy\end{matrix}\right]=\left[\begin{matrix}\frac{\partial x}{\partial \theta_1}&\frac{\partial x}{\partial \theta_2}\\\frac{\partial y}{\partial \theta_1}&\frac{\partial y}{\partial \theta_2}\end{matrix}\right]\left[\begin{matrix}d\theta_1 \\d\theta_2 \end{matrix}\right] {dx=∂θ1∂xdθ1+∂θ2∂xdθ2dy=∂θ1∂ydθ1+∂θ2∂ydθ2即:[dxdy]=[∂θ1∂x∂θ1∂y∂θ2∂x∂θ2∂y][dθ1dθ2] -
雅克比矩阵是一阶偏导数以一定方式排列形成的矩阵,其行列式成为雅克比行列式
J F ( x 1 , . . . , x n ) = [ ∂ y 1 ∂ x 1 . . . ∂ y 1 ∂ x n . . . . . . . . . ∂ y m ∂ x 1 . . . ∂ y m ∂ x n ] J_F(x_1,...,x_n) = \left[\begin{matrix}\frac{\partial y_1}{\partial x_1} & ...& \frac{\partial y_1}{\partial x_n} \\...&...&... \\\frac{\partial y_m}{\partial x_1} & ...& \frac{\partial y_m}{\partial x_n}\end{matrix}\right] JF(x1,...,xn)=⎣⎡∂x1∂y1...∂x1∂ym.........∂xn∂y1...∂xn∂ym⎦⎤ -
其意义在于它表现为一个多变量函数的最佳线性逼近。可参考,多元函数下的偏导数。
F ( x ) ≈ F ( p ) + J F ( p ) ⋅ ( x − p ) F(x) \approx F(p)+J_F(p) ·(x-p) F(x)≈F(p)+JF(p)⋅(x−p) -
雅克比行列式的几何意义为矩阵对应线性变换前后的面积比
Hessian Matrix 海森矩阵
-
海森矩阵是二阶偏导数以一定方式排列的矩阵
H ( f ) = [ ∂ 2 f ∂ x 1 2 . . . ∂ 2 f ∂ x 1 x n . . . . . . . . . ∂ 2 f ∂ x n x 1 . . . ∂ 2 f ∂ x n 2 ] H(f)=\left[\begin{matrix}\frac{\partial^2 f}{\partial x_1^2}&...&\frac{\partial^2 f}{\partial x_1 x_n}\\...&...&... \\\frac{\partial^2 f}{\partial x_n x_1}&...&\frac{\partial^2 f}{\partial x_n^2}\end{matrix}\right] H(f)=⎣⎢⎡∂x12∂2f...∂xnx1∂2f.........∂x1xn∂2f...∂xn2∂2f⎦⎥⎤
描述函数的局部曲率,可以借助海森矩阵判定多元函数极值。 -
一些应用
- 应用在牛顿法中,解决最优化问题:使用海森矩阵的逆作为下降幅度
- 通过海森矩阵判定凸函数:海森矩阵为半正定矩阵时,该函数为凸函数
- 应用在图像处理中:对与特定结构进行增强,提取关键点
最优化理论
-
仿射函数
最高次数为1的多项式函数,常数项为零的仿射函数称为线性函数。
f ( x ) = A x + b 展 开 : f ( x ) = a 1 x 1 + a 2 x 2 + . . . + a n x n + b f(x) = Ax + b \\ 展开: f(x) = a_1x_1+a_2x_2+...+a_nx_n+b f(x)=Ax+b展开:f(x)=a1x1+a2x2+...+anxn+b
从 R n R^n Rn到 R m R^m Rm的映射
x → A x + b x \rightarrow Ax+b x→Ax+b
为仿射变换。 -
凸函数
在区间 [a, b] 上定义的函数 f, 对于任意两点都有:
f ( x 1 + x 2 2 ) ≤ f ( x 1 ) + f ( x 2 ) 2 f(\frac{x_1+x_2}{2}) \leq \frac{f(x_1)+f(x_2)}{2} f(2x1+x2)≤2f(x1)+f(x2)
满足该条件的即为凸函数。当去掉等号条件时,为严格凸函数。注意:国内外凹凸性定义不尽相同,有时是相反的。
特点:局部最优即为全局最优;仿射函数也是凸函数,不是严格的凸函数。
判定:实数集上,二阶导数在区间上不大于零,为凸函数;恒小于零,为严格凸函数。
-
最优化问题概述
- 无约束最优化
m i n x ∈ R n f ( x ) \mathop{min}\limits_{x \in R^n} f(x) x∈Rnminf(x)
-
有约束最优化
-
等式约束
m i n x ∈ R n f ( x ) s . t . h j ( x ) = 0 j = 1 , 2 , 3 , . . . , l \mathop{min}\limits_{x \in R^n} f(x) \\ s.t.\ \ \ \ h_j(x)=0 \ \ \ \ j=1,2,3,...,l x∈Rnminf(x)s.t. hj(x)=0 j=1,2,3,...,l -
不等式约束
m i n x ∈ R n f ( x ) s . t . g i ( x ) ≤ 0 i = 1 , 2 , 3 , . . . , k \mathop{min}\limits_{x \in R^n} f(x) \\ s.t.\ \ \ \ g_i(x) \leq 0 \ \ \ \ i=1,2,3,...,k x∈Rnminf(x)s.t. gi(x)≤0 i=1,2,3,...,k
-
-
约束优化问题
- 一般形式
m i n x ∈ R n f ( x ) s . t . g i ( x ) ≤ 0 i = 1 , 2 , 3 , . . . , k h j ( x ) = 0 j = 1 , 2 , 3 , . . . , l \mathop{min}\limits_{x \in R^n} f(x) \\ s.t.\ \ \ \ g_i(x) \leq 0 \ \ \ \ i=1,2,3,...,k \\ \ \ \ \ \ \ \ \ \ \ h_j(x)=0 \ \ \ \ j=1,2,3,...,l x∈Rnminf(x)s.t. gi(x)≤0 i=1,2,3,...,k hj(x)=0 j=1,2,3,...,l
-
凸优化问题
在一般约束优化问题下,同时满足:
-
f(x), g(x), h(x)在定义域内连续可微
-
f(x), g(x) 为凸函数
-
h(x) 为仿射函数
-
-
凸二次规划问题
在满足凸优化问题下,同时满足:
- f(x) 为二次型函数
一般形式:
m i n x ∈ R n 1 2 x T Q x + c T x s . t . W x ≤ b i = 1 , 2 , 3 , . . . , k \mathop{min}\limits_{x \in R^n} \frac{1}{2}x^TQx+c^Tx \\ s.t.\ \ \ \ Wx \leq b \ \ \ \ i=1,2,3,...,k x∈Rnmin21xTQx+cTxs.t. Wx≤b i=1,2,3,...,k
常用求解方法:- 椭球法
- 内点法
- 增广拉格朗日法
- 梯度投影法
-
拉格朗日对偶性
-
原始问题 P ( x ∗ → p ∗ ) (x^* \rightarrow p^*) (x∗→p∗)
m i n x ∈ R n f ( x ) s . t . g i ( x ) ≤ 0 i = 1 , 2 , 3 , . . . , k h j ( x ) = 0 j = 1 , 2 , 3 , . . . , l \mathop{min}\limits_{x \in R^n} f(x) \\ s.t.\ \ \ \ g_i(x) \leq 0 \ \ \ \ i=1,2,3,...,k \\ \ \ \ \ \ \ \ \ \ \ h_j(x)=0 \ \ \ \ j=1,2,3,...,l x∈Rnminf(x)s.t. gi(x)≤0 i=1,2,3,...,k hj(x)=0 j=1,2,3,...,l -
拉格朗日函数问题 L(=P) ( x ∗ → l ∗ ) (x^* \rightarrow l^*) (x∗→l∗)
L ( x , α , β ) = f ( x ) + ∑ i = 1 k α i g i ( x ) + ∑ j = 1 l β i h j ( x ) m i n x m a x α , β L ( x , α , β ) L(x,\alpha,\beta)=f(x)+\sum\limits_{i=1}^k \alpha_i g_i(x)+\sum\limits_{j=1}^l \beta_i h_j(x) \\\mathop{min}\limits_x \ \mathop{max}\limits_{\alpha,\beta}L(x,\alpha,\beta) L(x,α,β)=f(x)+i=1∑kαigi(x)+j=1∑lβihj(x)xmin α,βmaxL(x,α,β)关于原始问题等价于拉格朗日函数问题推导:
对 L:
L ′ = m a x α , β L ( α , β ) = { f ( x ) , 满 足 约 束 条 件 + ∞ , 不 满 足 约 束 条 件 L = m i n x L ′ ⇔ m i n x f ( x ) = P L'=\mathop{max}\limits_{\alpha,\beta}L(\alpha,\beta)=\left\{\begin{aligned}f(x),\ \ \ 满足约束条件\\+\infty,\ \ 不满足约束条件\end{aligned}\right.\\L = \mathop{min}\limits_x L' \Leftrightarrow \mathop{min}\limits_x f(x) =P L′=α,βmaxL(α,β)={f(x), 满足约束条件+∞, 不满足约束条件L=xminL′⇔xminf(x)=P
也即等价于原始问题 -
对偶问题 D ( α ∗ , β ∗ → d ∗ ) (\alpha^*,\beta^* \rightarrow d^*) (α∗,β∗→d∗)
m a x α , β m i n x L ( x , α , β ) \mathop{max}\limits_{\alpha,\beta} \mathop{min}\limits_{x}L(x,\alpha,\beta) α,βmaxxminL(x,α,β) -
三个重要定理
-
若原始问题和对偶问题都有最优值,则
d ∗ ≤ p ∗ d^*\leq p^* d∗≤p∗ -
当满足以下条件时, d ∗ = p ∗ d^* = p^* d∗=p∗
- 满足凸优化条件:上述
- 满足slater条件:存在严格满足约束条件的点 x。也即存在x,对于所有 i 有 g(x) <0
-
原始问题等价于对偶问题等价于满足KKT条件(what?)
d ∗ = p ∗ ⇔ K K T d^* = p^* \Leftrightarrow KKT \\ d∗=p∗⇔KKT
-
-
函数空间
-
数学空间
- 是研究工作的对象和遵循的规则
- 由元素和结构(元素所满足的规则)组成
-
距离
设X是一个非空集合,任给一对这个几个的元素x,y,有d(x,y),满足:
- 非负性
d ( x , y ) ≥ 0 ; d ( x , y ) = 0 ⇔ x = y d(x,y) \geq 0;d(x,y)=0 \Leftrightarrow x=y d(x,y)≥0;d(x,y)=0⇔x=y
- 对称性
d ( x , y ) = d ( y , x ) d(x,y)=d(y,x) \\ d(x,y)=d(y,x)
- 三角不等式
d ( x , y ) ≤ d ( x , z ) + d ( z , y ) d(x,y)\leq d(x,z)+d(z,y) d(x,y)≤d(x,z)+d(z,y)
则d(x,y)称为两点间距离
度量空间:定义了距离的空间(无法描述一个点的“长度”)
-
范数
若||x||是 R ∗ R^* R∗的范数,满足
∣ ∣ x ∣ ∣ ≥ 0 ; ∣ ∣ x ∣ ∣ = 0 ⇔ x = 0 ∣ ∣ α x ∣ ∣ = ∣ α ∣ ∣ ∣ x ∣ ∣ ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x||\geq 0;||x||=0 \Leftrightarrow x=0\\ ||\alpha x||=|\alpha|||x|| \\ ||x+y||\leq ||x||+||y|| ∣∣x∣∣≥0;∣∣x∣∣=0⇔x=0∣∣αx∣∣=∣α∣∣∣x∣∣∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
范数可以定义距离:
d ( x , y ) = ∣ ∣ x − y ∣ ∣ d(x,y)=||x-y|| d(x,y)=∣∣x−y∣∣
反之,不一定。赋范空间:定义了范数的空间(在度量空间中加入了零点)
-
内积
设 ( x , y ) ∈ R (x, y)\in R (x,y)∈R,满足:
-
对称性
-
对第一变元的线性性
-
正定性
则称(x, y)为内积
内积可以定义范数:
∣ ∣ x ∣ ∣ 2 = ( x , x ) ||x||^2=(x,x) ∣∣x∣∣2=(x,x)
反之,不一定。内积空间:定义了内积的空间(在赋范空间加入了角度)
-
-
线性空间
又称向量空间。可理解为给元素装配了加法和数乘的非空集合。非空集合的两种运算满足八条运算规律。
-
完备性
空间在极限运算结果,仍然处在该空间中。
巴拿赫空间:线性完备赋范空间
欧几里得空间:有限维线性内积空间
希尔伯特空间:无穷维线性完备内积空间
详细参考:http://open.163.com/newview/movie/free?pid=M8PTB0GHI&mid=M8PTBUHT0