这篇文章主要用来介绍深度学习涉及到的相关数学知识,算是一个知识储备。
1. 基本概念
1.1 梯度
多元函数的梯度是函数对各个变量求偏导数后形成的向量,记多元函数为 f ( x 1 , x 2 , … , x n ) f(x_1,x_2,\ldots,x_n) f(x1,x2,…,xn),则该函数的梯度为
∇ f ( x ) = [ ∂ f ∂ x 2 , ∂ f ∂ x 2 , … , ∂ f ∂ x n − 1 , ∂ f ∂ x n ] \nabla f(x) = \begin{bmatrix} { \frac{\partial f}{\partial x_2} }, { \frac{\partial f}{\partial x_2} }, \ldots, { \frac{\partial f}{\partial x_{n-1}} }, { \frac{\partial f}{\partial x_n} } \end{bmatrix} ∇f(x)=[∂x2∂f,∂x2∂f,…,∂xn−1∂f,∂xn∂f]
1.2 雅可比矩阵
设有向量 x ⃗ \vec{x} x和 y ⃗ \vec{y} y,且有 x ⃗ ∈ R n \vec{x} \in R^n x∈Rn, y ⃗ ∈ R m \vec{y}\in R^m y∈Rm,即 y i = f ( x i ) y_i=f(x_i) yi=f(xi)。那么雅可比矩阵就是输出向量的每个分量对输入向量的每个分量求偏导后形成的矩阵。
J = [ ∂ y 1 ∂ x 1 ∂ y 1 ∂ x 2 ⋯ ∂ y 1 ∂ x n ∂ y 2 ∂ x 1 ∂ y 2 ∂ x 2 ⋯ ∂ y 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ y m ∂ x 1 ∂ y m ∂ x 2 ⋯ ∂ y m ∂ x n ] J= \begin{bmatrix} { \frac{\partial y_1}{\partial x_1} } & { \frac{\partial y_1}{\partial x_2} } & \cdots & { \frac{\partial y_1}{\partial x_n} } \\ { \frac{\partial y_2}{\partial x_1} } & { \frac{\partial y_2}{\partial x_2} } & \cdots & { \frac{\partial y_2}{\partial x_n} } \\ \vdots & \vdots & \ddots & \vdots \\ { \frac{\partial y_m}{\partial x_1} } & { \frac{\partial y_m}{\partial x_2} } & \cdots & { \frac{\partial y_m}{\partial x_n} } \\ \end{bmatrix} J=⎣⎢⎢⎢⎢⎡∂x1∂y1∂x1∂y2⋮∂x1∂ym∂x2∂