优化方法与实践-第一次课程

第一次课程-最优化理论基础

1.1 最优化问题的数学模型

几乎所有类型的最优化问题都可以用下面的数学模型来描述:
m i n f ( x ) s . t . x ∈ K min f\left(x\right)\\ s.t. x \in K minf(x)s.t.xK
这里,K称为可行集或可行域, f ( x ) f(x) f(x)是定义在K上的目标函数, x x x被称为决策变量。
按照可行集的性质对最优化问题进行分类:

  • 线性规划和非线性规划:可行集是有限维空间中的一个子集;
  • 组合优化或网络优化:可行集中元素是有限的;
  • 动态规划:可行集是一个依赖时间的决策序列;
  • 最优控制:可行集是无穷维空间的一个连续子集。

这里主要考虑非线性规划:
m i n f ( x ) s . t . h i ( x ) = 0 , i = 1... l g i ( x ) ≥ 0 , i = 1... m min f\left(x\right)\\ s.t. h_{i}\left(x\right)=0,i=1...l\\ g_{i}\left(x\right)\geq0, i=1...m minf(x)s.t.hi(x)=0,i=1...lgi(x)0,i=1...m
h i ( x ) h_{i}(x) hi(x)(等式约束)和 g i ( x ) g_{i}(x) gi(x)(不等式约束)被称为约束函数。通常把目标函数为二次函数,而约束函数为线性函数的优化问题称为二次规划;目标函数和约束函数均为线性函数的优化问题称为线性规划。

1.2 向量和矩阵范数

向量范数

向量 x x x的范数 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣是一个非负数,它必须满足以下条件:

  1. ∣ ∣ x ∣ ∣ ≥ 0 , ∣ ∣ x ∣ ∣ = 0 ⇔ x = 0 ||x||\geq0,||x||=0\Leftrightarrow x=0 ∣∣x∣∣0,∣∣x∣∣=0x=0;
  2. λ ∣ ∣ x ∣ ∣ = ∣ λ ∣ ∣ ∣ x ∣ ∣ , λ ∈ R \lambda ||x||=|\lambda|||x||,\lambda\in R λ∣∣x∣∣=λ∣∣∣x∣∣,λR;
  3. ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq ||x||+||y|| ∣∣x+y∣∣∣∣x∣∣+∣∣y∣∣

常用的向量范数有:
1-范数: ∣ ∣ x ∣ ∣ 1 = ∑ i = 1 n ∣ x i ∣ ||x||_{1}=\sum_{i=1}^n|x_i| ∣∣x1=i=1nxi;
2-范数: ∣ ∣ x ∣ ∣ 2 = ( ∑ i = 1 n ∣ x i ∣ 2 ) 1 2 ||x||_2=(\sum_{i=1}^n|x_i|^2)^\frac{1}{2} ∣∣x2=(i=1nxi2)21;
∞ \infty -范数: ∣ ∣ x ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∣ x i ∣ ||x||_{\infty} = max_{1\leq i\leq n}|x_i| ∣∣x=max1inxi

矩阵范数

矩阵 A A A的范数是一个非负实数,它除了要满足与与向量范数相似的三条性质外,还需要具备乘法法则:

  1. ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ||AB||\leq {||A||}\quad{||B||} ∣∣AB∣∣∣∣A∣∣∣∣B∣∣

常用的矩阵范数有:
行和范数: ∣ ∣ A ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∑ j = 1 n ∣ a i j ∣ ||A||_\infty = max_{1\leq i\leq n}\sum_{j=1}^n |a_{ij}| ∣∣A=max1inj=1naij;
列和范数: ∣ ∣ A ∣ ∣ 1 = m a x 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ ||A||_1 = max_{1\leq j \leq n}\sum_{i=1}^n |a_{ij}| ∣∣A1=max1jni=1naij;
谱范数: ∣ ∣ A ∣ ∣ 2 = m a x { λ ∣ λ ∈ λ ( A T A ) } ||A||_2 = max\left\{ \sqrt{ \lambda } | \lambda \in \lambda \left( A^T A\right)\right\} ∣∣A2=max{λ λλ(ATA)}
在讨论向量序列和矩阵序列的收敛性是,常用谱范数和下式定义的F-范数:
∣ ∣ A ∣ ∣ F = ( ∑ i = 1 n ∑ j = 1 n a i j 2 ) 1 2 = t r ( A T A ) ||A||_F = \left( \sum_{i=1}^n \sum_{j=1}^n a_{ij}^2 \right) ^ \frac{1}{2} = \sqrt{tr \left( A^T A \right)} ∣∣AF=(i=1nj=1naij2)21=tr(ATA)

向量序列和矩阵序列的收敛性

向量序列收敛性:
lim ⁡ k → ∞ x ( k ) = x ↔ lim ⁡ k → ∞ x i ( k ) = x i i = 1... n \lim_{k \rightarrow \infty} x^ {(k)} = x \leftrightarrow \lim_{ k \rightarrow \infty } x_i ^{(k)} = x_i \quad i=1...n klimx(k)=xklimxi(k)=xii=1...n
用向量范数来描述:
lim ⁡ k → ∞ x ( k ) = x ⇔ lim ⁡ k → ∞ ∣ ∣ x ( k ) − x ∣ ∣ = 0 \lim_{k \rightarrow \infty} x^{(k)}= x \Leftrightarrow \lim_{k \rightarrow \infty} ||x^{(k)} - x|| = 0 klimx(k)=xklim∣∣x(k)x∣∣=0
类似的,矩阵序列收敛性:
lim ⁡ k → ∞ A ( k ) = A ⇔ lim ⁡ k → ∞ a i j ( k ) = a i j i = 1... n \lim_{k \rightarrow \infty} A^ {(k)} = A \Leftrightarrow \lim_{k \rightarrow \infty} a_{ij}^{( k )} = a_{ij} \quad i=1...n klimA(k)=Aklimaij(k)=aiji=1...n
用矩阵范数来描述:
lim ⁡ k → ∞ A ( k ) = A ⇔ lim ⁡ k → ∞ ∣ ∣ A ( k ) − A ∣ ∣ = 0 \lim_{k \rightarrow \infty} A^{(k)}= A \Leftrightarrow \lim_{k \rightarrow \infty} ||A^{(k)} - A|| = 0 klimA(k)=Aklim∣∣A(k)A∣∣=0

向量范数及矩阵范数的等价定理

  • 对于两个向量范数 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣∣∣ ∣ ∣ ⋅ ∣ ∣ ′ || \cdot ||^ \prime ∣∣,存在两个正数 c 1 c_1 c1 c 2 c_2 c2,对于所有 x x x,下式恒成立:
    c 1 ∣ ∣ x ∣ ∣ ≤ ∣ ∣ x ∣ ∣ ′ ≤ c 2 ∣ ∣ x ∣ ∣ c_1 ||x|| \leq ||x||^ \prime \leq c_2 ||x|| c1∣∣x∣∣∣∣xc2∣∣x∣∣

  • 对于两个矩阵范数 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣∣∣ ∣ ∣ ⋅ ∣ ∣ ′ || \cdot ||^ \prime ∣∣,存在两个正数 m 1 m_1 m1 m 2 m_2 m2,对于所有 A A A,下式恒成立:
    m 1 ∣ ∣ A ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ′ ≤ m 2 ∣ ∣ A ∣ ∣ m_1 ||A|| \leq ||A||^ \prime \leq m_2 ||A|| m1∣∣A∣∣∣∣Am2∣∣A∣∣

1.3多元函数的梯度、Hesse矩阵、Jcobi矩阵

设有n元实函数 f ( x ) f(x) f(x),其中自变量 x = ( x 1 , . . . , x n ) T x=(x_1,...,x_n)^T x=(x1,...,xn)T,则其梯度为:

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值