文章目录
范数逼近和最小范数
观测m ≥ \geq ≥未知n
范数逼近的定义及解释
- 范数逼近的凸优化问题形式
min ∣ ∣ A x − b ∣ ∣ A ∈ R m × n , m ≥ n , ∣ ∣ . ∣ ∣ 表 R m 的 范 数 s o l u t i o n : x ∗ = arg min x ∣ ∣ A x − b ∣ ∣ \min{||Ax-b||} \\A\isin R^{m\times n},m\geq n,||.||表R^m的范数 \\solution:x^*=\arg{\min_x{||Ax-b||}} min∣∣Ax−b∣∣A∈Rm×n,m≥n,∣∣.∣∣表Rm的范数solution:x∗=argxmin∣∣Ax−b∣∣
-
解释
就是希望找一个拟合模型(直线),然后衡量它与实际数据点的差距(范数)
-
几何geometric角度
设 A = { a 1 , a 2 , . . . , a n } A=\{a_1,a_2,...,a_n\} A={a1,a2,...,an}(列空间),那么存在平面 R ( A ) = ∑ i = 1 n ( a i h i ) R(A)=\sum\limits_{i=1}^n(a_ih_i) R(A)=i=1∑n(aihi);
然后 A x = b ~ Ax=\tilde{b} Ax=b~是向量 b b b在 R ( A ) R(A) R(A)平面上的投影;
目的就是找到 b ~ 和 b \tilde{b}和b b~和b差距最小的 x x x.
-
估计estimation角度
假设是线性模型: y = A x + ε y=Ax+\varepsilon y=Ax+ε
y y y是测量结果, x x x是位置向量, ε \varepsilon ε是测量误差
利用范数,转变求解问题: x ^ = arg min x ∣ ∣ A x − b ∣ ∣ \hat{x}=\arg\min_x{||Ax-b||} x^=argminx∣∣Ax−b∣∣
-
优化设计角度
x x x是输入的设计变量, A x Ax Ax是输出的结果;
最贴近目标 b b b的最好设计是 x ∗ x^* x∗
-
-
例子
-
L2最小二范数least-squares逼近( ∣ ∣ . ∣ ∣ 2 ||.||_2 ∣∣.∣∣2)
一般观测独立情况下,经过数据处理总能满足列满秩 r a n k ( A ) = n rank(A)=n rank(A)=n,存在左逆矩阵 A L A^L AL
求解一般等式问题: A T A x = A T b A^TAx=A^Tb ATAx=ATb
最优解(伪逆( A L A^L AL)): x ∗ = ( A T A ) − 1 A T b x^*=(A^TA)^{-1}A^Tb x∗=(ATA)−1ATb
-
L∞切比雪夫Chebyshev逼近( ∣ ∣ . ∣ ∣ ∞ ||.||_{\infty} ∣∣.∣∣∞)
可转变为求解线性规划LP
-
L1绝对值和sum of absolute residuals逼近( ∣ ∣ . ∣ ∣ 1 ||.||_1 ∣∣.∣∣1)
可转变为求解线性规划LP
-
罚函数逼近
-
求解问题
-
罚函数的例子&对比
- quadratic: ϕ ( u ) = u 2 \phi(u)=u^2 ϕ(u)=u2
- deadzone-linear: ϕ ( u ) = max { 0 , ∣ u ∣ − a } \phi(u)=\max\{0,|u|-a\} ϕ(u)=max{0,∣u∣−a}
- log-barrier:
-
函数图像对比
-
罚函数的形式很大程度影响了残差的分布(样本m=100,未知数n=30, ϕ ( u ) = ∣ ∣ . ∣ ∣ p \phi(u)=||.||_p ϕ(u)=∣∣.∣∣p)
ϕ ( u ) = ∣ u ∣ , ϕ ( u ) = u 2 , ϕ ( u ) = m a x 0 , ∣ U ∣ − a , ϕ ( u ) = − log ( 1 − u 2 ) \phi(u)=|u|,\phi(u)=u^2,\phi(u)=max{0,|U|-a},\phi(u)=-\log(1-u^2) ϕ(u)=∣u∣,ϕ(u)=u2,ϕ(u)=max0,∣U∣−a,ϕ(u)=−log(1−u2)
[L1]残差的分布集中在零点,但是因为绝对值对大误差的惩罚很小,所以会存在少部分大误差的数据
[L2]二次函数对小残差的惩罚很小,所以小误差的分布比较散,但是大误差会减少
[deadzone]边界之内就是free空间
[log-barrier]没有大于1的残差,但是分布较为均匀,类似L2
-
Huber罚函数with 参数M
相对比二次函数,线性函数对大误差(离群值)没那么敏感,就是逼近中允许少部分的离群值存在.
观测m ≤ \leq ≤未知n
最小范数问题
满足等式条件下,可以获得的最小范数
- 范数逼近的凸优化问题形式
min ∣ ∣ x ∣ ∣ s . t . A x = b A ∈ R m × n , m ≤ n , ∣ ∣ . ∣ ∣ 表 R n 的 范 数 s o l u t i o n : x ∗ = arg min A x = b ∣ ∣ x ∣ ∣ \min{||x||} \\s.t. Ax=b \\A\isin R^{m\times n},m\leq n,||.||表R^n的范数 \\solution:x^*=\arg{\min_{Ax=b}{||x||}} min∣∣x∣∣s.t.Ax=bA∈Rm×n,m≤n,∣∣.∣∣表Rn的范数solution:x∗=argAx=bmin∣∣x∣∣
-
解释
-
geometric
x ∗ x^* x∗是仿射集 { x ∣ A x = b } \{x|Ax=b\} {x∣Ax=b}里最接近0的点
-
estimation
x ∗ x^* x∗是可行域 b = A x b=Ax b=Ax里最小的点
-
design
x x x是输入的设计变量, b b b是要求的输出结果;
x ∗ x^* x∗是满足要求中最小的设计方案
-
-
例子
-
L2:等式约束利用拉格朗日函数转变,然后求导得到KKT条件
{ 2 x + A T ν = 0 A x = b \begin{cases}2x+A^T\nu=0\\Ax=b\end{cases} {2x+ATν=0Ax=b
得到 { ν = − 2 ( A A T ) − 1 b x = A T ( A A T ) − 1 b \begin{cases}\nu=-2(AA^T)^{-1}b\\x=A^T(AA^T)^{-1}b\end{cases} {ν=−2(AAT)−1bx=AT(AAT)−1b
因为rank(A)=m<=n,所以 A A T AA^T AAT可逆
{ min ∣ ∣ x ∣ ∣ 2 2 s . t . A x = b \begin{cases}\min{||x||_2^2}\\s.t. Ax=b\end{cases} {min∣∣x∣∣22s.t.Ax=b的解是 x ∗ = A T ( A A T ) − 1 b x^*=A^T(AA^T)^{-1}b x∗=AT(AAT)−1b
-
L1:可转化为线性规划LP问题,趋向得到稀疏解 x ∗ x^* x∗
-
最小罚函数问题
- 问题定义
拟合:用不同的罚函数(使用工具DL去构造),去学习(理解min凸问题)怎么逼近实际数据(分布)
正则化逼近
正则化理解
-
正则化 : 结合范数逼近和最小范数
-
解释 : 用最小的x来找最优逼近 A x ≈ b Ax\approx b Ax≈b
-
estimation
假设线性测量模型 y = A x + ν y=Ax+\nu y=Ax+ν,其中,先验知识 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣要求是尽可能小的
-
optimal design
小的 x x x是满足 y = A x y=Ax y=Ax中更便宜或更高效的解
-
稳健逼近
相比大x,带小x的优良逼近 A x ≈ b Ax\approx b Ax≈b对A中存在的误差更不敏感.
-
标量化问题
- 把正则化要求用一个公式表示,带有权衡参数
γ
\gamma
γ
Tikhonov regularization
就是标量化问题加上二次方
整合成类似
min
∣
∣
A
~
x
−
b
~
∣
∣
2
2
\min{||\tilde{A}x-\tilde{b}||_2^2}
min∣∣A~x−b~∣∣22的形式,解是
x
∗
=
(
A
T
A
+
δ
I
)
−
1
A
T
b
x^*=(A^TA+\delta I)^{-1}A^Tb
x∗=(ATA+δI)−1ATb
Optimal input design
-
带脉冲信号h的线性动态系统LDS(一维卷积函数)
-
输入设计 : 具有3个目标的多准则问题
-
正则化最小二范数形式
表现效果:
- 当 δ \delta δ较大时,输入信号的变化幅度变缓/平滑,输出信号的变化更平滑
- 当
η
\eta
η较大时,输入信号的大小幅度变小,输出信号的变化更平滑
Signal reconstruction信号恢复
-
二次平滑quadratic smoothing
二次平滑平滑噪声和信号中的急剧跃迁
-
累积变换平滑total variation smoothing
总变化平滑保留了信号中的急剧跃迁
-
最好的拟合效果应该是右边中间那个(也就是下图中的拐点处)
稳健/鲁棒逼近
-
带不确定A的优化问题 min ∣ ∣ A x − b ∣ ∣ \min{||Ax-b||} min∣∣Ax−b∣∣
-
机器学习 : 当我们把ML的模型写成最优化问题 , 求解出来 , 就可以更容易知道数据的偏好 , 及其分布情况
stochastic随机
-
假设A是随机的,求 min E ∣ ∣ A x − b ∣ ∣ \min{\mathbb{E}||Ax-b||} minE∣∣Ax−b∣∣
-
Stochastic Robust Least Square Problem
-
其中 P = E ( U T U ) P=\mathbb{E}{(U^TU)} P=E(UTU),是正定的,可以开平方/解
-
对上式的 x x x求导并等于0,可以得到
2 A ˉ T A ˉ x − 2 A ˉ T b + 2 P x = 0 x ~ = ( A ˉ T A ˉ + P ) − 1 A ˉ T b 2\bar{A}^T\bar{A}x-2\bar{A}^Tb+2Px=0 \\\tilde{x}=(\bar{A}^T\bar{A}+P)^{-1}\bar{A}^Tb 2AˉTAˉx−2AˉTb+2Px=0x~=(AˉTAˉ+P)−1AˉTb -
因此Robust LS等价于LS问题
min ∣ ∣ A ˉ x − b ∣ ∣ 2 2 + ∣ ∣ P 1 / 2 x ∣ ∣ 2 2 \min{||\bar{A}x-b||_2^2+||P^{1/2}x||_2^2} min∣∣Aˉx−b∣∣22+∣∣P1/2x∣∣22 -
Tikhonov正则化最小问题的另一种解释
当 P = δ I − 对 角 矩 阵 , min ∣ ∣ A ˉ x − b ∣ ∣ 2 2 + δ ∣ ∣ x ∣ ∣ 2 2 当P=\delta I -对角矩阵,\min{||\bar{A}x-b||_2^2+\delta||x||_2^2} 当P=δI−对角矩阵,min∣∣Aˉx−b∣∣22+δ∣∣x∣∣22
-
worst-case最坏
-
A中存在的可能值组成集合 A \mathcal{A} A,求 min sup A ∈ A ∣ ∣ A x − b ∣ ∣ \min{\sup_{A\isin\mathcal{A}}||Ax-b||} minsupA∈A∣∣Ax−b∣∣
- 其中 sup A ∈ A ∣ ∣ A x − b ∣ ∣ \sup_{A\isin\mathcal{A}}||Ax-b|| supA∈A∣∣Ax−b∣∣就表示最坏误差
-
worst-case Robust Least Square Problem
-
假设集合 A \mathcal{A} A非空且有界,sup函数对应如下形式
max ∣ ∣ P u + q ∣ ∣ 2 2 s . t . ∣ ∣ u ∣ ∣ 2 2 ≤ 1 \max ||Pu+q||_2^2 \\s.t. ||u||_2^2\leq1 max∣∣Pu+q∣∣22s.t.∣∣u∣∣22≤1
q ( x ) = A ˉ x − b q(x)=\bar{A}x-b q(x)=Aˉx−b,利用拉格朗日算子
L ( u , λ ) = u T P ( x ) T P ( x ) u + q ( x ) T q ( x ) + 2 q ( x ) T P ( x ) u + λ ( u T u − 1 ) L(u,\lambda)=u^TP(x)^TP(x)u+q(x)^Tq(x)+2q(x)^TP(x)u+\lambda(u^Tu-1) L(u,λ)=uTP(x)TP(x)u+q(x)Tq(x)+2q(x)TP(x)u+λ(uTu−1)
求解变量变成 t , x , λ t,x,\lambda t,x,λ -
根据强对偶转换为
-
因此robust LS等价于SDP问题
-
对比Robust approximation
-
[对比] stochastic和worst-case Robust approximation
-
[对比] 普通LS,Tikhonov LS,Robust LS—残差频数的分布情况
总结
-
逼近和拟合的CVX包:
- CVX-Matlab或者cvxopt-Python
- 常见模型:sdp;gp…
-
范数逼近
- 问题: min ∣ ∣ A x − b ∣ ∣ \min{||Ax-b||} min∣∣Ax−b∣∣
- 三个角度(几何,估计,优化设计)解释
- 例子:L2,L∞,L1
- 扩展:罚函数逼近
{
min
ϕ
(
r
1
)
+
.
.
.
+
ϕ
(
r
m
)
s
.
t
.
r
=
A
x
−
b
\begin{cases}\min{\phi(r_1)+...+\phi(r_m)}\\s.t. r=Ax-b\end{cases}
{minϕ(r1)+...+ϕ(rm)s.t.r=Ax−b
- deadzone,log-barrier罚函数
- Huber罚函数
-
最小范数问题
- 问题: { min ∣ ∣ x ∣ ∣ s . t . A x = b \begin{cases}\min{||x||}\\s.t. Ax=b\end{cases} {min∣∣x∣∣s.t.Ax=b
- 三个角度(几何,估计,优化设计)解释
- 例子:L2,L1
- 扩展:罚函数逼近 { min ϕ ( r 1 ) + . . . + ϕ ( r n ) s . t . A x = b \begin{cases}\min{\phi(r_1)+...+\phi(r_n)}\\s.t. Ax=b\end{cases} {minϕ(r1)+...+ϕ(rn)s.t.Ax=b
-
正则化逼近
- 正则化问题: min ( ∣ ∣ A x − b ∣ ∣ , ∣ ∣ x ∣ ∣ ) ( w . r . t ( 关 于 ) R 2 + ) \min{(||Ax-b||,||x||)}\\(w.r.t(关于)R_2^{+}) min(∣∣Ax−b∣∣,∣∣x∣∣)(w.r.t(关于)R2+)
- 标量化问题:
min
(
∣
∣
A
x
−
b
∣
∣
+
γ
∣
∣
x
∣
∣
)
\min{(||Ax-b||+\gamma||x||)}
min(∣∣Ax−b∣∣+γ∣∣x∣∣)
- 例子
- Tikhonov regularization
- Optimal input design
- Signal reconstruction
- 例子
-
稳健/鲁棒逼近
- 问题: min ∣ ∣ A x − b ∣ ∣ , A 不 确 定 \min{||Ax-b||},A不确定 min∣∣Ax−b∣∣,A不确定
- 逼近方法
- Stochastic随机
- Worst-Case最坏
考虑到时间,麻烦的公式以后就不敲了.
Reference