最优化问题(一)

最优化问题(一)
最优化问题(二) 之 拉格朗日乘子法和KKT
最优化问题(三) 之 外点法(罚函数法)
最优化问题(四) 之 投影法

1. 最优化问题

其实早在高中阶段,我们就已经学习过了什么是最优化问题。

求一元二次方程 f ( x ) = x 2 + 2 ∗ x + 1 f(x)=x^2+2*x+1 f(x)=x2+2x+1 的最小值

求解方法也很简单,令 f ( x ) f(x) f(x) x x x 的导数为0,该方程的解即为极值点。
现在我们知道,之所以可以这么求解是因为函数 f ( x ) f(x) f(x) 为凸函数,其极值点就对应最优解。同时 f ( x ) f(x) f(x) 的导数方程可以直接求解的,但对于更为复杂的情形,就不一定能直接求解出来了。所以我们需要更为通用的求解方法。

2. 最优化问题分类

要知道通用的最优化问题求解方法,就需要了解最优化问题的分类及一般形式。最优化问题可以分为3个层次:最简单的是无约束优化,其次是带等式约束的优化,最难的是带不等式约束和等式约束的优化。
在这里插入图片描述
下面我们一一举例介绍每个类别,

  • 无约束优化:上面我们提到的一元二次方程最小值问题就是一个典型的无约束优化问题
  • 等式约束优化:将上面的问题扩充一下,就变成了等式约束优化问题了

已知 x + y = 5 x+y=5 x+y=5 ,求二元二次方程 f ( x ) = x 2 + 2 ∗ y + 1 f(x)=x^2+2*y+1 f(x)=x2+2y+1 的最小值

  • 不等式约束优化:将上面的问题再扩充一下,就变成了不等式约束优化问题了

已知 x + y > = 5 x+y>=5 x+y>=5 ,求二元二次方程 f ( x ) = x 2 + 2 ∗ y + 1 f(x)=x^2+2*y+1 f(x)=x2+2y+1 的最小值

由此,可以给出最优化问题的一般形式:
在这里插入图片描述在这里插入图片描述

3. 最优化问题求解

对于无约束优化问题,常见的方法有:梯度下降法、最速下降法、牛顿迭代法等;而在有约束的问题中,直接使用这些基于梯度的方法会有问题,如更新后的值不满足约束条件。

那么问题来了,如何处理有约束的优化问题?大致可以分为以下两种方式(后面将一一介绍):

  1. 有约束的问题转化为无约束的问题,如拉格朗日乘子法和KKT条件、罚函数法;
  2. 对无约束问题下的求解算法进行修改,使其能够运用在有约束的问题中,如对梯度下降法进行投影,使得更新后的值都满足约束条件。

4. 最优化问题的应用

最优化问题在实际场景中十分常见,例如机器学习中很多模型的拟合过程就是一个优化问题,优化目标就是最小化损失函数。

  • 无约束的最优化问题
    如线性回归的损失函数最小化目标(又称为最小二乘法):
    min ⁡ 1 2 ∑ i = 1 m ( h ( x i ) − y i ) 2 \min \dfrac{1}{2} \sum_{i=1} ^m (h(x_i) - y_i)^2 min21i=1m(h(xi)yi)2
    如果在原始最小二乘法损失函数的基础上加上正则化项,又变成了新的优化目标:
    Lasso回归 min ⁡ 1 2 ∑ i = 1 m ( h ( x i ) − y i ) 2 + λ ∑ j = 1 n ∣ ω j ∣ \min \dfrac{1}{2} \sum_{i=1} ^m (h(x_i) - y_i)^2 + \lambda \sum_{j=1} ^ n |\omega_j| min21i=1m(h(xi)yi)2+λj=1nωj
    岭回归 min ⁡ 1 2 ∑ i = 1 m ( h ( x i ) − y i ) 2 + λ ∑ j = 1 n ∣ ω j ∣ 2 \min \dfrac{1}{2} \sum_{i=1} ^m (h(x_i) - y_i)^2 + \lambda \sum_{j=1} ^ n |\omega_j|^2 min21i=1m(h(xi)yi)2+λj=1nωj2
    其中, λ \lambda λ 是正则化项的系数,用于权衡模型结构风险与经验风险的比重,可以看到LASS回归与岭回归的差别仅仅在于使用的正则化项而已,LASS使用的是L1正则化,岭回归使用的是L2正则化。

  • 有约束的最优化问题
    这一类优化问题除了有目标函数项,还有其他约束项。比如:SVM 的优化目标为最大化几何间隔,即
    max ⁡ r = r ^ ∣ ∣ ω ∣ ∣ \max r = \dfrac{\hat{r}}{||\omega||} maxr=ωr^
    其中, r r r 是样本集合在样本空间的最小几何间隔(几何间隔:样本点到分界面的垂直距离), r ^ \hat{r} r^是函数间隔,几何间隔与函数间隔满足 r = r ^ / ∣ ∣ ω ∣ ∣ r=\hat{r}/||\omega|| r=r^/ω ω \omega ω 是分界超平面的系数向量,SVM的目标就是要让上图中的r最大化。
    但是,这个优化目标还要满足额外的约束条件:
    r i > = r r_i >= r ri>=r
    其中, r i r_i ri 表示每个样本各自的几何间隔,很显然最小的几何间隔肯定要小于等于每个样本各自的几何间隔。
    则,完整的优化目标可以写成:
    max ⁡ r \max r maxr, s.t. r i = y i ( w x i + b ) ∣ ∣ ω ∣ ∣ = r i ^ ∣ ∣ ω ∣ ∣ > = r r_i=\dfrac{y_i(wx_i+b)}{||\omega||}=\dfrac{\hat{r_i}}{||\omega||} >= r ri=ωyi(wxi+b)=ωri^>=r
    两边同时乘以 ∣ ∣ ω ∣ ∣ ||\omega|| ω
    max ⁡ r \max r maxr, s.t. y i ( w x i + b ) > = ∣ ∣ ω ∣ ∣ r y_i(wx_i+b)>=||\omega||r yi(wxi+b)>=ωr
    r = r ^ / ∣ ∣ ω ∣ ∣ r=\hat{r}/||\omega|| r=r^/ω
    max ⁡ r ^ ∣ ∣ ω ∣ ∣ \max \dfrac{\hat{r}}{||\omega||} maxωr^, s.t. y i ( w x i + b ) > = r ^ y_i(wx_i+b)>=\hat{r} yi(wxi+b)>=r^
    为了简化优化目标,令 r ^ = 1 \hat{r}=1 r^=1 ,,则完整的优化目标可以写成:
    max ⁡ 1 ∣ ∣ ω ∣ ∣ \max \dfrac{1}{||\omega||} maxω1, s.t. y i ( w x i + b ) > = 1 , i = 1 , 2... , n y_i(wx_i+b)>=1,i=1, 2...,n yi(wxi+b)>=1i=1,2...,n

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值