《神经网络与深度学习》讲义1—数学基础

最新推荐文章于 2024-07-24 21:01:17 发布

InfinityForever

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量3.1k

点赞数 1

文章标签：深度学习神经网络数学

本文链接：https://blog.csdn.net/InfinityForever/article/details/50429172

版权

本文摘自邱锡鹏老师的《神经网络与深度学习》讲义

范数

矩阵的 $p$ 范数为：

∥ A ∥ = ⎛ ⎝ \sum i = 1 m \sum j = 1 n ∣ a i j ∣ p ⎞ ⎠ 1 / p

$\lVert A \rVert = \left( \sum_{i=1}^m \sum_{j=1}^n \lvert a_{ij} \rvert^p\right)^{1/p}$

导数

$p$ 维向量 $\mathbf x \in \mathbb R^p$ ，函数 $y=f(\mathbf x)=f(x_1,\cdots,x_p) \in \mathbb R$ ，则 $y$ 关于 $\mathbf x$ 的导数为

\nabla x f (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f ( x ) \partial x 1 ⋮ \partial f ( x ) \partial x p ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R p

$\nabla_x f(x) = \begin{bmatrix} {\partial f(\mathbf x)} \over {\partial x_1} \\ \vdots \\ {\partial f(\mathbf x)} \over {\partial x_p} \end{bmatrix} \in \mathbb R^p$
对于一个

p $p$ 维向量

x∈Rp $\mathbf x \in \mathbb R^p$ ，函数

y=f(x)=f(x1,⋯,xp)∈Rq $\mathbf y = f(\mathbf x) = f(x_1,\cdots,x_p) \in \mathbb R^q$ ，则

y $\mathbf y$ 关于

x $\mathbf x$ 的导数

\nabla x f (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 ( x ) \partial x 1 ⋮ \partial f 1 ( x ) \partial x p \dots ⋮ \dots \partial f q ( x ) \partial x 1 ⋮ \partial f q ( x ) \partial x p ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R p \times q

$\nabla_{\mathbf x} f(\mathbf x) = \begin{bmatrix} {\partial f_1(\mathbf x)} \over {\partial x_1} & \cdots & {\partial f_q(\mathbf x)} \over {\partial x_1} \\ \vdots & \vdots & \vdots \\ {\partial f_1(\mathbf x)} \over {\partial x_p} & \cdots & {\partial f_q(\mathbf x)} \over {\partial x_p} \end{bmatrix} \in \mathbb R^{p \times q}$

常见向量导数

\partial A x \partial x = A T

${{\partial A \mathbf x} \over {\partial \mathbf x}} = A^T$

\partial x T A \partial x = A

${{\partial \mathbf x^T A} \over {\partial \mathbf x}} = A$

导数法则

乘法法则： $\mathbf y = f(\mathbf x), \mathbf z =g(\mathbf x)$ ，则

\partial y T z \partial x = \partial y \partial x z + \partial z \partial x y

${{\partial \mathbf y^T \mathbf z} \over {\partial \mathbf x}} = {{\partial \mathbf y} \over {\partial \mathbf x}}\mathbf z + {{\partial \mathbf z} \over {\partial \mathbf x}}\mathbf y$
链式法则：

z=f(y),y=g(X) $\mathbf z = f(\mathbf y), \mathbf y = g(X)$ ，

X $X$ 为矩阵，则：

\partial z \partial X i j = t r ((\partial z \partial y) T \partial y \partial X i j)

${{\partial \mathbf z} \over {\partial X_{ij}}} = tr\left( ({{\partial \mathbf z} \over {\partial \mathbf y}})^T {{\partial \mathbf y} \over {\partial X_{ij}}} \right)$

常用函数

定义 $\mathbf x = [x_1,\cdots,x_K]^T, \mathbf z = [z_1,\cdots,z_K]^T$ ，

z = f (x)

$\mathbf z = f(\mathbf x)$

f(x) $f(\mathbf x)$ 是按位运算的，即

(f(x))i=f(xi) $(f(\mathbf x))_i = f(x_i)$ ；则

f(x) $f(\mathbf x)$ 的导数为

\partial f ( x ) \partial x = [\partial f ( x j ) \partial x i] K \times K = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ f' (x 1) 0 ⋮ 0 0 f' (x 2) ⋮ 0 \dots \dots ⋮ \dots 00 ⋮ f' (x K) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = d i a g (f' (x))

$\begin{align} {{\partial f(\mathbf x)} \over {\partial \mathbf x}} & = [{{\partial f(x_j)} \over {\partial x_i}}]_{K \times K} \\ & = \begin{bmatrix} f^\prime(x_1) & 0 & \cdots & 0 \\ 0 & f^\prime(x_2) & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & f^\prime(x_K) \end{bmatrix} \\ & = diag(f^{\prime}(\mathbf x)) \end{align}$

logistic函数

logistic函数常用于将实数空间映射到 $(0,1)$ 区间

σ (x) = 1 1 + e - x

$\sigma(x) = {1 \over {1+e^{-x}}}$
其导数为

σ' (x) = σ (x) (1 - σ (x))

$\sigma^\prime(x) = \sigma(x)(1-\sigma(x))$

softmax函数

softmax函数将多个标量映射为一个概率分布。
对于 $K$ 个标量 $x_1,\cdots,x_K$ ，softmax函数定义为

z k = s o f t m a x (x k) = exp ( x k ) \sum K i = 1 exp ( x i )

$z_k = softmax(x_k) = {\exp(x_k) \over \sum_{i=1}^K \exp(x_i)}$ 。
这样就将

K $K$ 个变量

x1,⋯,xK $x_1,\cdots,x_K$ 转换为一个分布：

z1,⋯,zK $z_1,\cdots,z_K$ 。
当softmax函数的输入为

K $K$ 维向量

x $\mathbf x$ 时，

z^= s o f t m a x (x) = exp ( x ) 1 - T K exp ( x )

$\hat {\mathbf z} = softmax(\mathbf x) = {\exp(\mathbf x) \over \underline 1_K^T\exp(\mathbf x)}$
其中

1−K=[1,⋯,1]K×1 $\underline 1_K = [1,\cdots,1]_{K \times 1}$ 是

K $K$ 维全1向量。
其导数为

\partial s o f t m a x ( x ) \partial x = d i a g (s o f t m a x (x)) - s o f t m a x (x) s o f t m a x (x) T

${{\partial \mathbf {softmax}(\mathbf x)} \over {\partial \mathbf x}} = \mathbf{diag(softmax(x)) -softmax(x)softmax(x)^T}$

InfinityForever

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《神经网络与深度学习》讲义1—数学基础

本文摘自邱锡鹏老师的《神经网络与深度学习》讲义范数矩阵的pp范数为： ∥A∥=⎛⎝∑i=1m∑j=1n∣aij∣p⎞⎠1/p\lVert A \rVert = \left( \sum_{i=1}^m \sum_{j=1}^n \lvert a_{ij} \rvert^p\right)^{1/p}导数pp维向量x∈Rp\mathbf x \in \mathbb R^p，函数y=f(x)=f(x1,⋯
复制链接

扫一扫