最优化方法预备知识

最新推荐文章于 2023-04-25 20:12:10 发布

JasonQ_NEU

最新推荐文章于 2023-04-25 20:12:10 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习最优化文章标签：机器学习最优化

本文链接：https://blog.csdn.net/u012430664/article/details/78400049

版权

本文介绍了最优化方法中的基础概念，包括多元函数、Hesse矩阵、凸集与凸函数的定义、性质及凸规划的初步探讨。内容涵盖了凸组合、凸集的性质，以及二次函数与二次规划的关系，强调了这些理论在求解最优解中的重要性。

摘要由CSDN通过智能技术生成

《最优化方法》和《应用数理统计》是机器学习的基础，接下来一段时间我将整理整理最优化和数理统计的一些知识，整理的知识中不包含证明过程（具体的证明过程可以查阅相关书籍），在学习最优化过程中需要一点高数和线性代数基础。

多元函数

定理1：若f(x)在点 $x_0$ c处可微，则f(x)在该点关于各个变量的一节偏导数存在，并且

l = [\partial f ( x o ) \partial x 1, \partial f ( x o ) \partial x 2, \cdot \cdot \cdot, \partial f ( x o ) \partial x n] T

$l=[\frac {\partial f(x_o)}{\partial x_1}, \frac {\partial f(x_o)}{\partial x_2},\cdot\cdot\cdot,\frac {\partial f(x_o)}{\partial x_n}]^T$ 定理1就是表明对于多元函数，可微

⇒ $\Rightarrow$ 可导。对于多元函数：可微

⇒ $\Rightarrow$ 可导

⇒ $\Rightarrow$ 连续

⇒ $\Rightarrow$ 可积；对于一元函数：可微

⇔ $\Leftrightarrow$ 可导

⇒ $\Rightarrow$ 连续

⇒ $\Rightarrow$ 可积。
定义1: (梯度)以 f(x)的n个偏导数为分量的向量称为 f(x)在 x处的梯度，记为

\nabla f(x) = [\partial f(x) \partial x 1, \partial f(x) \partial x 2, \cdot \cdot \cdot, \partial f(x) \partial x n]

$\nabla{\textit {f(x)}}=[\frac {\partial \textit {f(x)}}{\partial x_1},\frac {\partial \textit {f(x)}}{\partial x_2},\cdot\cdot\cdot,\frac {\partial \textit {f(x)}}{\partial x_n}]$ 梯度也称为函数 f(x)关于变量 x的一阶导数。
若函数 f(x)在

x0 $x_0$ 处可微，多元函数 f(x)在

x0 $x_0$ 的一阶Taylor展开式

f (x 0 + p) = f (x 0) + \nabla f (x 0) T p + o (| | p | |)]

$f({{x_0}}+{p})=f({x_0})+\nabla f({x_0})^T{p}+o(||{p}||)]$
定义2:(方向导数)设

f:Rn→R1 $f:R^n \to R^1$ 在点

x0 $x_0$ 处可微，

p $p$ 是任意给定的非零向量，

e $e$ 是

p $p$ 方向上的单位向量，则极限

lim t \to 0 + f ( x 0 + t e ) - f ( x 0 ) t

$\lim \limits_{t\to 0^+}\frac {f(x_0+te)-f(x_0)}{t}$ 称为函数f(x)在点

x0 $x_0$ 处沿

p $p$ 方向的方向导数，记作

∂f(x0)∂p $\frac {\partial f(x_0)}{\partial p}$
定理2:设

f:Rn→R1 $f:R^n \to R^1$ 在点

x0 $x_0$ 处可微，则

\partial f ( x ) \partial p = \nabla f (x 0) T e

$\frac {\partial f(x)}{\partial p} = \nabla f(x_0)^Te$ 其中

e $e$ 是

p $p$ 方向上的单位向量。
方向导数

∂f(x0)∂p $\frac {\partial f(x_0)}{\partial p}$ 又可以称为函数

f(x) $f(x)$ 在点

x0 $x_0$ 处沿

p $p$ 方向的变化率。梯度方向是函数值的最速上升方向；函数在与梯度正交的方向上变化率为0。

Hesse矩阵

定义1设 $g:D\subseteq R^n \to R^m,x_0\in D$ 。如果 $g(x)$ 的所有分量 $g_1(x),g_2(x),\cdot\cdot\cdot,g_m(x)$ 在点 $x_0$ 都可微，那么成向量值函数 $g(x)$ 在点 $x_0$ 处可微。

\nabla g (x 0) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial g 1 ( x 0 ) \partial x 1 \partial g 1 ( x 0 ) \partial x 2 \cdot \cdot \cdot \partial g 1 ( x 0 ) \partial x n \partial g 2 ( x 0 ) \partial

最低0.47元/天解锁文章

JasonQ_NEU

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
最优化方法预备知识

多元函数Hesse矩阵凸集凸函数凸规划二次函数与二次规划极小点的判定条件《最优化方法》和《应用数理统计》是机器学习的基础，接下来一段时间我将整理整理最优化和数理统计的一些知识，整理的知识中不包含证明过程（具体的证明过程可以查阅相关书籍），在学习最优化过程中需要一点高数和线性代数基础。多元函数定理1：若f(x)在点x0x_0c处可微，则f(x)在该点关于各个变量的一节偏导数存在，并且l=[
复制链接

扫一扫