线性代数|机器学习-P22逐步最小化一个函数

文章目录

1. 概述
2. 泰勒公式
3. 雅可比矩阵
4. 经典牛顿法
5. 梯度下降和经典牛顿法
- 5.1 线搜索方法
- 5.2 经典牛顿法
6. 凸优化问题
- 6.1 约束问题
- 6.1 凸集组合
7. 相互关系

1. 概述

主要讲的是无约束情况下的最小值问题。涉及到如下：

矩阵求导
泰勒公式，函数到向量的转换
梯度下降
牛顿法梯度下降

2. 泰勒公式

我们之前在高等数学中学过关于f(x)的泰勒展开如下：
定义： $\lim\limits_{x\to a}h_k(x)=0$
$\begin{equation} f(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\cdots+\frac{f^{(k)}(a)}{k!}(x-a)^k+h_k(x)(x-a)^k \end{equation}$

那么我们只提取二次项， $x+\Delta x \rightarrow x;x\rightarrow a$ 可得如下：
$\begin{equation} f(x+\Delta x)\approx f(x)+f'(x)\Delta x+\frac{f''(x)}{2!}\Delta x^2 \end{equation}$
上面的公式中x为标量，现在我们需要用到向量 x
$a, b$ 均为1维列向量，S为对称矩阵时，我们可得得到如下：
$\begin{equation} a^Tb=c,x^TSx=d\rightarrow c,d均为标量 \end{equation}$
定义如下：
$\begin{equation} x=\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix}^T,f=\begin{bmatrix}f_1&f_2&\cdots&f_n\end{bmatrix}^T \end{equation}$
$\begin{equation} f'(x)=\nabla F=\begin{bmatrix}\frac{\partial f}{\partial x_1}&\frac{\partial f}{\partial x_1}&\cdots&\frac{\partial f}{\partial x_n}\end{bmatrix}^T \rightarrow f'(x)\Delta x=(\Delta x)^T \nabla F(x) \end{equation}$
$H_{jk}$ 为hessian matrix具有对称性
$\begin{equation} f''(x)=H_{jk}=\frac{\partial^2F}{\partial x_j\cdot \partial x_k}\rightarrow \frac{f''(x)}{2!}\Delta x^2=\frac{1}{2}(\Delta x)^T H_{jk}(\Delta x) \end{equation}$
整理上述公式可得：
$\begin{equation} F(x+\Delta x)\approx F(x)+(\Delta x)^T \nabla F(x)+\frac{1}{2}(\Delta x)^T H_{jk}(\Delta x) \end{equation}$