非线性优化技术简介----一阶必要条件（一）

红豆怪怪

已于 2023-04-10 13:53:46 修改

阅读量596

点赞数 1

分类专栏： mat3007 文章标签：线性代数机器学习最小二乘法

于 2023-04-09 12:31:59 首次发布

mat3007 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

非线性优化技术简介

梯度和一阶泰勒展开式

假设 $f(x) = f(x_1, x_2, x_3,...,x_n)$ 是连续可导的，我们用一个（n x 1）向量表示f的梯度：
$\nabla f(x) = \Big(\frac{\delta f(x_1)}{\delta x_1}; \frac{\delta f(x_2)}{\delta x_2};\frac{\delta f(x_3)}{\delta x_3}; ... ; \frac{\delta f(x_n)}{\delta x_n} \Big)$

得到一阶泰勒展开式：
$\nabla f(x)^\mathrm{T} d+ o(t) \quad t\rightarrow 0$

如果是 $f (x)$ 两次可导的， $f (x)$ 的海森矩阵(相当于二次导数)为:
$\nabla^2 f(x) = \Big(\frac{\delta f(x)}{\delta x_i \delta x_j}\Big)_{i,j}$

通过二阶泰勒展开式，我们得到了：
$\nabla f(x) d + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0$

例子

$f(x_1, x_2, x_3) = x_1^2+ x_1x_2 + x_1e^{x_3} + x_2lnx_3$

$\begin{equation} \nabla f(x)=\left[ \begin{array}{c} 2x_1 + x_2 + e^{x_3}\\ x_1 + lnx_3 \\ x_1e^{x_3} + \frac{x_2}{x_3} \end{array} \right] \end{equation}$

$\begin{equation} \nabla^2 f(x)=\left[ \begin{array}{ccc} 2 & 1 & e^{x_3} \\ 1 & 0 & \frac{1}{x_3} \\ e^{x_3} & \frac{1}{x_3} &x_1e^{x_3} -\frac{x_2}{{x_3}^2} \end{array} \right] \end{equation}$
注：海森矩阵有对称性，只需计算一半即可。

无约束问题的最优性条件-一阶条件

在下面，我们首先研究一个最优解必须满足的条件：一阶和二阶（必要的） 最优性条件。我们将首先从局部最优解开始。

最优性条件：无约束问题

如果我们以整个实数集 $R^n$ 为可行集（feasible set） $\Omega$ , 也就是：
$\begin{alignat}{2} \min_{x \in R^n} \quad f(x) \\ \end{alignat}$
最优条件（必要）：
$\nabla f(x) = 0$
证明：如果 $\nabla f (x) \neq 0$ 且 $f (x)$ 是最小值，那么我们可以找到一个向量 $-\nabla f (x)$ ， $\nabla f (x)^\mathrm{T}d = -\Vert \nabla f (x) \Vert^2 < 0$ 。因此，通过泰勒展开式：
$\nabla f(x)^\mathrm{T} d+ o(t) \quad t\rightarrow 0$

$\because \nabla f (x)^\mathrm{T}d < 0, o(t) < 0$ $\Rightarrow f(x+td) < f(x)$

通过选择足够小的 $t$ ，我们可以找到一个在 $x$ 附近的点 $\bar x = x + td$ 使 $f(\bar x) < f( x)$ ，与题设矛盾

一阶必要条件 First-Order Necessary Conditions (FONC)

一阶必要条件: 如果 $x^\star$ 是无约束问题 $min_{x \in R^n} f (x)$ 的局部极小值，那么我们必须有 $\nabla f(x^\star)=0$ 。
备注: $\nabla f (x)=0$ 的点 $x$ 都是局部极小点的候选点

例子: $f(x) = x_1^2 - x_1x_2 + x_2^2 - 3x_2$
一阶必要条件为：
$2x_1 - x_2 = 0, -x_1 + 2x_2 = 0$
有一个唯一的解 $x_1 = 1，x_2 = 2）$ ，它是 $f$ 的全局最小点。

示例：最小二乘问题

假设一个变量 $y$ 是由 $n$ 个因子 $x_1, ..., x_n \in R^m$ 决定的。我们知道它们近似地有一个线性关系：

$\approx \beta_1x_1 + \beta_2 x_2 + ... + \beta_n x_n \quad \beta_i \in R$

现在，我们要确定这个关系（找到参数 $\beta$ ）。
我们有 $m$ 个观测值 $(m > n)$ 这些观测值可以组成一个数据矩阵 $X$
$\{ x_i^T = (x_{i1},x_{i2},...x_{in}), y_i\}, \quad i = 1, 2, ...,m$
其中， $x_i^T$ 是数据矩阵 $X$ 的第 $i$ 行.
理想情况下，我们想找到 $\beta = (\beta_1,\beta_2,... \beta_n)^\mathrm{T}$ ，使 $ y = X \beta $ 。然而，这可能是不可能的（例如，方程y = Xβ可以是一个过确定的线性系统（overdetermined system））。通常情况下，观测不遵循 $X\beta$ ，所以我们需要完全噪声观测（noisy observations）。

相反，我们试图最小化误差的平方和：
$\begin{alignat}{2} \min_{\beta}\quad \sum_{i = 0}^n(y_i - x_i^T\beta_i)^2 \\ \end{alignat}$
这个问题的矩阵形式为：
$\begin{alignat}{2} \min_{\beta}\quad \Vert X\beta - y\Vert^2 = X\beta\beta^\mathrm{T}X - 2\beta^\mathrm{T}X^\mathrm{T}y + y^\mathrm{T}y \\ \end{alignat}$
其中 $\Vert \omega \Vert^2 = \omega_1^2 + \omega_2^2 + ... + \omega_n^2$