实变函数无约束优化的梯度分析

最新推荐文章于 2024-02-24 21:08:33 发布

Sunny_Jie

最新推荐文章于 2024-02-24 21:08:33 发布

阅读量226

点赞数 2

分类专栏：机器学习数学原理文章标签：无约束优化 Hessian矩阵

本文链接：https://blog.csdn.net/qq_35866736/article/details/93512888

版权

机器学习数学原理专栏收录该内容

15 篇文章 1 订阅

订阅专栏

高三打基础，高四985

典型的优化问题

$\underset{\bm x\in \mathcal D}{min}f(\bm x)$
其中， $\mathcal{D}=dom f(\bm x)$ 表示函数 $f(\bm x)$ 的定义域；变元向量 $\bm x \in\mathbb{R}^n$ 称为最优化问题的优化向量，代表需要作出的一种选择，在机器学习中，我们更关注所求参数的值，即极值点是多少，而不关注极值是多少。

松弛

称序列 $\left\{a_k\right\}^\infty_{k=0}$ 为松弛序列（relaxation sequence），若 $a_{k+1}\le a_{k},\forall k\ge0$ 。在迭代求解最优化问题的过程中，需要产生一个松弛序列 $f(\bm x_{k+1}) \le f(\bm x_{k}),\quad k=0,1,\cdots$

Taylor级数

邻域

在谈论Taylor级数之前，先认识邻域，简单来说，就是在某一点附近的一个区域，这个区域的大小通常用欧几里得范数（Euclidean norm）表示，不管你是多少维的向量，都可以，如 $\|\bm x-\bar{\bm x}\|_2\le r$ 表示点 $\bar{\bm x}$ 的一个半径为 $r$ 的邻域，邻域通常是在很微小的尺度上衡量一件事情。

认识Taylor级数

泰勒级数可以用无穷多个多项式近似逼近一个复杂函数，但是通常这是不现实的，一般是研究哪一段就在哪一段附近做泰勒展开，低阶项可以近似代表展开点附近原函数的值，高阶项是逼近远处原函数值的必要项，当展开点c的邻域足够小时，在邻域内可以利用一阶项，最多二阶项逼近邻域内点

一元函数的Taylor级数

如果函数

f (x)

在

c

点有连续的

n

阶导数，则其在

c

点的Taylor展开为

f(c+\Delta x)=f(c)+f&#x27;(c)\Delta x+\frac{1}{2}f&#x27;&#x27;(c)(\Delta x)^2+\cdots+\frac{1}{n!}f^{(n)}(c)(\Delta x)^n+o((\Delta x)^n)

这是考研的内容，现在想起来还很亲切。

多元函数Taylor级数和极值求解

考过研的同志们应该清楚地记着，考研大纲多元函数无约束极值问题一般就要求到二元函数 $f (x, y)$ ，套路是这样的，先求一阶偏导数，令 $f'_x=0,f'_y=0$ ，这样就得到若干驻点，再求二阶偏导数，满足 $f''_{xx}f'_{yy}-\left(f''_{xy}\right)^2>0$ ，则是极值点；若 $f''_{xx}f'_{yy}-\left(f''_{xy}\right)^2<0$ ，则不是极值点；若等于零，则需从极值的定义判断。
这种做法抽象程度太低，即概括性不强，同时解释性也不好，下面，我们将通过多变量函数的泰勒展开，利用梯度向量和Hessian矩阵进行判定，解释性往往也更强，同时这里面也将用到二次型的相关知识。
多变量实值函数 $f(\bm x)$ ，其中 $\bm x=[x_1,\cdots,x_n]^T$ ，令 $\Delta\bm x=\bm x-\bm c$ ，在半径 $r$ 足够小的邻域内，函数 $f(\bm x)$ 在点 $\bm c$ 的二阶Taylor级数逼近为 $f(\bm c+\Delta\bm x)\approx f(\bm c)+\left(\frac{\partial f(\bm c)}{\partial \bm c}\right)^T\Delta\bm x+\frac{1}{2}(\Delta\bm x)^T\frac{\partial^2 f(\bm c)}{\partial \bm c\partial\bm c^T}\Delta\bm x\\ =f(\bm c)+\left(\nabla f(\bm c)\right)^T\Delta\bm x+\frac{1}{2}(\Delta\bm x)^T\bm H(f(\bm x))\Delta\bm x$

式中
$\nabla f(\bm c)=\frac{\partial f(\bm c)}{\partial\bm c}=\frac{\partial f(\bm x)}{\partial\bm x}\bigg|_{\bm x=\bm c}\\ \bm H(f(\bm c))=\frac{\partial^2 f(\bm c)}{\partial \bm c\partial\bm c^T}=\frac{\partial^2 f(\bm x)}{\partial \bm x\partial\bm x^T}\bigg|_{\bm x=\bm c}$
分别是函数 $f(\bm x)$ 在点 $\bm c$ 的梯度向量和Hessian矩阵。
在更小邻域内，满足二阶项可以忽略的情况下，函数的一阶Taylor级数逼近为
$f(\bm c+\Delta\bm x)\approx f(\bm c)+\left(\nabla f(\bm c)\right)^T\Delta\bm x$

显然，为了保证 $f(\bm c)\le f(\bm{c}+\Delta\bm x)$ 对邻域内的所有点都成立，梯度向量在点 $\bm c$ 需满足：
$\nabla f(\bm c)=\frac{\partial f(\bm x)}{\partial \bm x}\bigg|_{\bm x=\bm c}=0$

在梯度向量 $\nabla f(\bm c)=0$ 的情况下，对于二阶项不能忽略的邻域，此时函数 $f(\bm x)$ 的二阶Taylor级数逼近：
$f(\bm c+\Delta\bm x)\approx f(\bm c)+\frac{1}{2}(\Delta\bm x)^T\bm H(f(\bm x))\Delta\bm x$

于是我们容易得到以下结论：

（1）若二次型

(\Delta\bm x)^T\bm H(f(\bm x))\Delta\bm x\ge0

对邻域内所有的

\Delta \bm x

恒成立，或Hessian 矩阵半正定

\bm H(f(\bm c))=\frac{\partial^2 f(\bm x)}{\partial \bm x\partial\bm x^T}\bigg|_{\bm x=\bm c}\succeq 0

则

f(\bm c)\le f(\bm{c}+\Delta\bm x)

在我们规定的邻域内恒成立，即点

\bm c

是函数

f(\bm x)

的一个局部极小点。

（2）若二次型

(\Delta\bm x)^T\bm H(f(\bm x))\Delta\bm x\le0

对邻域内所有的

\Delta \bm x

恒成立，或Hessian 矩阵半负定

\bm H(f(\bm c))=\frac{\partial^2 f(\bm x)}{\partial \bm x\partial\bm x^T}\bigg|_{\bm x=\bm c}\preceq 0

则

f(\bm c)\ge f(\bm{c}+\Delta\bm x)

在我们规定的邻域内恒成立，即点

\bm c

是函数

f(\bm x)

的一个局部极大点。

（3）若二次型在邻域内的某些点大于等于零，另一些点小于零，或Hessian matrix 不定，则点

\bm c

是函数

f(\bm x)

的一个鞍点。

（4）若上面(1)(2)里面的“=”去掉，则点

\bm c

是函数

f(\bm x)

的一个严格局部极小（大）点。

总结

在无约束优化的极值问题中

严格局部极小点的二阶充分条件是： $\nabla f(\bm c)=\frac{\partial f(\bm x)}{\partial \bm x}\bigg|_{\bm x=\bm c}=0\quad和\quad\bm H(f(\bm c))=\nabla^2_{\bm c}f(\bm c)=\frac{\partial^2 f(\bm x)}{\partial \bm x\partial\bm x^T}\bigg|_{\bm x=\bm c}\succ 0$
严格局部极大点的二阶充分条件是： $\nabla f(\bm c)=\frac{\partial f(\bm x)}{\partial \bm x}\bigg|_{\bm x=\bm c}=0\quad和\quad\bm H(f(\bm c))=\nabla^2_{\bm c}f(\bm c)=\frac{\partial^2 f(\bm x)}{\partial \bm x\partial\bm x^T}\bigg|_{\bm x=\bm c}\prec 0$
Hessian矩阵不定，则不能保证该点是一个极值点，它可能只是一个鞍点。

补充

多变量实值函数的Taylor展开可能有点抽象，我们逐项理解：(1) 常数项很好理解，这是展开点函数值；(2) 一阶项：二元函数 $f (x, y)$ 全微分的定义： $df(x,y)=f'_xdx+f'_ydy=(f'_x,f'_y) \cdot(dx,dy)$ ,因此推广到更多元也不难理解；(3) 二阶项：对于多元函数 $f(\bm x)$ 求两次偏微分后和对其Taylor级数求两次偏微分后的结果一致，即 $\nabla^2_{\bm c}f(\bm c)=\frac{\partial^2 f(\bm x)}{\partial \bm x\partial\bm x^T}\bigg|_{\bm x=\bm c}=\bm H(f(\bm c))$ 这符合Taylor公式的定义原则。
Hessian矩阵是对称矩阵，判定Hessian是正定矩阵的方法：① 正定二次型的定义： $\forall \bm x \neq\bm0,\bm x^TA\bm x>0$ ，则 $A$ 为正定矩阵；② 该对称矩阵的所有顺序主子式都大于零；③ 该对称矩阵的所有特征值都大于零；④ 该矩阵合同于同型单位矩阵。

以上内容均参考张贤达著《矩阵分析与应用》，更多高阶理论，请参考该书第四章。

Sunny_Jie

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实变函数无约束优化的梯度分析

典型的优化问题minx∈Df(x)\underset{\bm x\in \mathcal D}{min}f(\bm x)x∈Dminf(x)其中，D=domf(x)\mathcal{D}=dom f(\bm x)D=domf(x)表示函数f(x)f(\bm x)f(x)的定义域；变元向量x∈Rn\bm x \in\mathbb{R}^nx∈Rn称为最优化问题的优化向量，代表需要作出的一种选择...
复制链接

扫一扫

专栏目录