【机器学习】数学基础——微积分篇

最新推荐文章于 2022-12-16 00:01:46 发布

AlvaIce

最新推荐文章于 2022-12-16 00:01:46 发布

阅读量499

点赞数

分类专栏：机器学习数学基础

本文链接：https://blog.csdn.net/sinat_23854139/article/details/89136870

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

数学基础

3 篇文章 0 订阅

订阅专栏

文章目录

一、O(n)与o(n)

order 阶
维基百科：https://en.wikipedia.org/wiki/Big_O_notation

O(n)： $\exists \ \ x_{0},M,使得 x\geqslant x_{0} 时，有f(x)\leqslant Mg(x)。$
要点： $g (x)$ 的常数倍 $M$ 可以限制住 $f (x)$

o(n)： $\forall \ \varepsilon,\exists \ \ x_{0},使得x\geqslant x_{0}时，f(x)\leqslant\varepsilon g(x),其中，\varepsilon可以足够小。$
要点： $f (x)$ 的阶比 $g (x)$ 要小， o(n) 比 O(n) 要严格。

二、导数、偏导数、方向导数与梯度

维基百科：https://en.wikipedia.org/wiki/Derivative
https://en.wikipedia.org/wiki/Gradient
导数计算：https://www.derivative-calculator.net/

导数：指的是一元函数中，函数 $y = f (x)$ 在某一点处沿 $x$ 轴正方向的变化率。
$\frac{\partial f(x)}{\partial x}=\lim_{\Delta x\rightarrow 0}\frac{f\left (x+\Delta x \right ) - f\left ( x \right )}{\Delta x}$
偏导数：指的是多元函数中，函数 $y=f(\ x_{1},\ x_{2},…，\ x_{n})$ 在某一点处沿某一坐标轴 $x_{1},\ x_{2},…，\ x_{n})$ 正方向的变化率。
$\frac{\partial }{\partial x_{j}}f\left ( x_{0},x_{1},...,x_{n} \right )=\lim_{\Delta x\rightarrow 0}\frac{f\left ( x_{0},...,x_{j}+\Delta x,...,x_{n} \right ) - f\left ( x_{0},...,x_{j},...,x_{n} \right )}{\Delta x}$
方向导数：函数沿任意方向的变化率，即某一点在某一趋近方向上的导数值。
$\frac{\partial }{\partial l}f\left ( x_{0},x_{1},...,x_{n} \right )=\lim_{\rho \rightarrow 0}\frac{f\left ( x_{0}+\Delta x_{0},...,x_{j}+\Delta x_{j},...,x_{n}+\Delta x_{n} \right ) - f\left ( x_{0},...,x_{j},...,x_{n} \right )}{\rho }$ $\rho =\sqrt{\left (\Delta x_{0} \right )^{2}+...+\left (\Delta x_{j} \right )^{2}+...+\left (\Delta x_{n} \right )^{2}}$
可微：具有一阶连续偏导数，意味着可微。

梯度：函数在某一点的梯度是一个向量，它的方向与取得最大方向导数的方向一致，它的模是方向导数的最大值。
$\bigtriangledown f=gradf\left ( x_{0},x_{1},...,x_{n} \right )=\left ( \frac{\partial f}{\partial x_{0}},\frac{\partial f}{\partial x_{1}},...,\frac{\partial f}{\partial x_{n}} \right )$

三、函数逼近与泰勒展开

费马定理：对于函数 $f^{'}(x) = 0$ ，是函数在该处有极值点的必要不充分条件。

凸函数：函数的二阶导数 $f^{''}(x) >0$ ，则该函数为凸函数(下)，反之 $f^{''}(x) <0$ ，则该函数为上凸函数。二阶导数 $f^{''}(x) = 0$ ，则该点是函数的可能拐点。

函数逼近：指函数的近似表示，用于近似求解。

泰勒展开：泰勒公式是将一个在 $x=x_{0}$ 处具有 $n$ 阶导数的函数 $f (x)$ ，利用关于 $x-x_{0})$ 的 $n$ 次多项式来逼近函数的方法。若函数 $f (x)$ 在包含 $x_{0}$ 的某个闭区间 $[a, b]$ 上具有 $n$ 阶导数，且在开区间 $(a, b)$ 上具有 $(n + 1)$ 阶导数，则对闭区间 $[a, b]$ 上任意一点 $x$ ，成立下式：
$f(x)=\frac{f(x_{0})}{0!}+\frac{f^{'}(x_{0})}{1!}(x-x_{0})+\frac{f^{''}(x_{0})}{2!}(x-x_{0})^{2}+...+\frac{f^{n}(x_{0})}{n!}(x-x_{0})^{n}+R_{n}(x)$ $R_{n}(x)是(x-x_{0})^{n}的高阶无穷小$

四、雅可比矩阵和Hessian矩阵

维基百科：https://en.wikipedia.org/wiki/Jacobian_matrix_and_determinant
https://en.wikipedia.org/wiki/Hessian_matrix

梯度是标量对向量的求导，Jacobian和Hessian矩阵是向量对向量的求导，分别是一阶导矩阵和二阶导矩阵。

Jacobian矩阵：可以理解为矩阵的梯度(Matrix Gradient)。
$\textbf{J}=\frac{\partial \textbf{f}}{\partial \textbf{x}}=\left [\frac{\partial \textbf{f}}{\partial x_{1}}\cdots \frac{\partial \textbf{f}}{\partial x_{n}} \right ]=\begin{bmatrix} \frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}}\\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}& \cdots & \frac{\partial f_{m}}{\partial x_{n}} \end{bmatrix}$ $即\textbf{J}_{ij}=\frac{\partial f_{i}}{\partial x_{j}},m\times n阶矩阵$ $其中，\textbf{f}=(f_{1},...,f_{m}),\textbf{x}=(x_{1},...,x_{n})$

Hessian矩阵：与多元函数的凹凸是有密切关联的。

$\textbf{H}=\begin{bmatrix} \frac{\partial^2 \textbf{f}}{\partial x_{1}^2} & \frac{\partial^2 \textbf{f}}{\partial x_{1}\partial x_{2}} & \cdots & \frac{\partial^2 \textbf{f}}{\partial x_{1}\partial x_{n}}\\ \frac{\partial^2 \textbf{f}}{\partial x_{2}\partial x_{1}} & \frac{\partial^2 \textbf{f}}{\partial x_{2}^2} & \cdots & \frac{\partial^2 \textbf{f}}{\partial x_{2}\partial x_{n}}\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 \textbf{f}}{\partial x_{n}\partial x_{1}} & \frac{\partial^2 \textbf{f}}{\partial x_{n}\partial x_{2}} & \cdots & \frac{\partial^2 \textbf{f}}{\partial x_{n}^2} \end{bmatrix}$ $即\textbf{H}_{ij}=\frac{\partial^2 f}{\partial x_{i}\partial x_{j}},n\times n阶对称矩阵$ $其中，\textbf{f}是多元函数f(x_{1},...,x_{n})$

记 $f$ 在 $M$ 点处的Hessian矩阵为 $\textbf{H}(M)$ 。对于 $\textbf{H}(M)$ ，有如下结论：

当 $\textbf{H}(M)$ 是正定矩阵时，函数 $f$ 有极小值；
当 $\textbf{H}(M)$ 是负定矩阵时，函数 $f$ 有极大值；
当 $\textbf{H}(M)$ 是不定矩阵时，还要看更高阶的导数。

五、拉格朗日乘数法

维基百科：https://en.wikipedia.org/wiki/Lagrange_multiplier

拉格朗日乘数法是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。用于解决约束优化问题，引入拉格朗日乘子将含有 $n$ 个变量和 $k$ 个约束条件的问题，转化为含有 $(n + k)$ 个变量的无约束优化问题。

求二元函数 $z = f (x, y)$ 在条件 $\varphi(x,y)=0$ 下的极值，可以转化为函数 $F(x,y,\lambda)=f(x,y)+\lambda \varphi(x,y)$ 的无条件极值问题。

要点：拉格朗日乘数法所得的极点会包含原问题的所有极值点，但并不保证每个极值点都是原问题的极值点。

令 $F(x,y,\lambda)=f(x,y)+\lambda \varphi(x,y)$ ，若 $\Delta F(x_{0},y_{0},\lambda_{0})=\vec{0}$ ,则 $(x_{0},y_{0},\lambda_{0})$ 是函数 $F(x,y,\lambda)$ 的驻点，通过如下步骤，得到驻点的值。
$\left\{\begin{matrix} F_{x}=0\\ F_{y}=0\\ F_{\lambda}=0\\ \end{matrix}\right.$
$F(x,y,\lambda)$ 称为拉格朗日函数， $\lambda$ 称为拉格朗日乘数(Lagrange multiplier)。

六、参考资料

AlvaIce

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】数学基础——微积分篇

文章目录一、O(n)与o(n)一、O(n)与o(n)order 阶维基百科：https://en.wikipedia.org/wiki/Big_O_notationO(n)：∃  x0,M,使得x⩾x0时，有f(x)⩽Mg(x)。\exists \ \ x_{0},M,使得 x\geqslant x_{0} 时，有f(x)\leqslant Mg(x)。∃ ...
复制链接

扫一扫