深度学习之数学基础 Updating

最新推荐文章于 2024-07-07 18:46:11 发布

David_Hernandez

最新推荐文章于 2024-07-07 18:46:11 发布

阅读量897

点赞数

分类专栏： NLP 文章标签：深度学习数学基础 deep-learning nlp

本文链接：https://blog.csdn.net/kisslotus/article/details/78805461

版权

NLP 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. 常用函数的有用性质

1.1 logistic sigmoid函数：

σ (x) = 1 1 + e - x

$\begin{align} \sigma (x) &= \frac{1}{1 + e^{-x}} \end{align}$

logistic sigmoid函数通常用来产生Bernouli分布中的参数 $\Phi$ , 因为它的范围是(0, 1), 处在 $\Phi$ 的有效取值范围内。sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，函数会变得很平，并且对输入的微笑改变会变得不敏感。

1.2 softplus 函数

ζ (x) = l o g (1 + e x)

$\begin{align} \zeta (x) &= log (1 + e^{x}) \end{align}$

softplus函数可以用来产生正态分布的 $\beta$ 和 $\alpha$ 参数，因为它的范围是(0, $\infty$ ). 当处理包含sigmoid函数的表达式时，它也经常出现。softplus函数名来源于它的另一个函数的平滑称软化形式，这个函数为：

$x + = m a x (0, x)$ $\begin{align} x^{+} &= max(0, x) \end{align}$

1.2.1 应该背下来的性质

σ (x) = e x e x + e 0 = 1 1 + e - x

$\begin{align} \sigma (x) & = \frac {e^x}{e^x + e^0} \\ & = \frac{1}{1 + e^{-x}} \end{align}$

d d x σ (x) = σ (x) (1 - σ (x))

$\begin{align} \frac {d}{dx} \sigma (x) & = \sigma(x)(1 - \sigma(x)) \end{align}$

1 - σ (x) = σ (- x)

$\begin{align} 1 - \sigma (x) & = \sigma(-x) \end{align}$

l o g σ (x) = - ζ (- x)

$\begin{align} log \sigma(x) & = - \zeta(-x) \end{align}$

d d x ζ (x) = σ (x)

$\begin{align} \frac {d}{dx} \zeta(x) = \sigma(x) \end{align}$

\forall x \in (0, 1), σ - 1 (x) = l o g (x 1 - x)

$\begin{align} \forall x \in (0, 1), \sigma ^{-1} (x) & = log \bigl( \frac{x}{1 - x} \bigr) \end{align}$

\forall x > 0, ζ - 1 (x) = l o g (e x - 1)

$\begin{align} \forall x \gt 0, \zeta ^{-1} (x) & = log (e^x - 1) \end{align}$

ζ (x) = \int x - \infty σ (y) d y

$\begin{align} \zeta (x) = \int_{-\infty}^x \sigma (y) dy \end{align}$

ζ (x) - ζ (- x) = x

$\begin{align} \zeta (x) - \zeta (-x) = x \end{align}$

1.3 softmax函数

softmax 函数经常用于预测与Multinoulli分布相关联的概率，定义为：

$s o f t m a x (x) i = e x i \sum n j = 1 e x j$ $\begin{align} softmax {(x)}_i & = \frac {e^{x_i}}{\sum_{j=1}^n e^{x_j}} \end{align}$

1.3.1 上溢和下溢

使用softmax函数的时候，经常需要对其进行上溢和下溢处理。当 $x_i$ 等于c时，如果c是非常小的负数，exp(c)就会下溢，此时分母为0. 当c是非常大的正数时，exp(c)就会上溢。

解决办法是，计算softmax(z), $z = x - max_i x_i$ , 注：这里的z和x为粗体大写。softmax的函数值不会因为从输入向量减去或加上标量而改变。减去 $max_i x_i$ 导致exp的最大参数为0，这排除了上溢的可能性。同样，分母中至少有一个值为1的项，排除了因分母下溢而导致被零除的可能性。
计算log softmax(x)，先计算softmax再把结果传给log函数，会错误地得到 $-\infty$ 。此时，应该使用相同的方法来稳定log softmax函数。

1.4 基于梯度的优化方法（重点）

大多数深度学习算法都涉及某种形式的优化。优化指的是改变x以最小化或最大化某个函数f(x)的任务。

通常我们以最小化f(x)指代大多数最优化问题。最大化可经由最小化算法最小化 -f(x)来实现。

我们把要最小化或最大化的函数称为目标函数 objective function 或准则 criterion。当我们对其进行最小化时，也把它称为代价函数 cost function、损失函数 loss function 或误差 error function。
通常，使用一个上标*表示最小化或者最大化函数的x值，如， $x_* = arg min f(x)$ .
对于一维输入，可以求其导数。对于多维输入，需要用到偏导数 partial derivative。
梯度 gradient是相对一个向量求导的导数: f的导数是包含所有偏导数的向量，记为 $\nabla_x f(x)$ 。梯度的第i个元素是f关于 $x_i$ 的偏导数。在多维输入的情况下，临界点是梯度中所有元素都为零的点。
在 $\vec \mu$ 单位向量方向的方向导数 directional derivative 是函数f在 $\vec \mu$ 方向的斜率。也就是说，方向导数是函数 $f(\vec x + \alpha \vec \mu)$ 关于 $\alpha$ 的导数，在 $\alpha = 0$ 时取得。使用链式法则，我们可以看到，当 $\alpha = 0$ 时， $\frac {\partial}{\partial \alpha} f(\vec x + \alpha \vec \mu) = \mu^T \nabla_x f(\vec x)$ .
为了最小化f，我们希望找到使f下降的最快的方向，计算方向导数：

$m i n μ ⃗, μ ⃗ T μ ⃗ = 1 μ ⃗ T \nabla x ⃗ f (x ⃗) = m i n μ ⃗, μ ⃗ T μ ⃗ = 1 ∥ μ ⃗ ∥ 2 ∥ \nabla x ⃗ f (x ⃗) ∥ 2 c o s θ$ $\begin{align} min_{\vec \mu, \vec \mu^T \vec \mu = 1} \vec \mu^T \nabla_{\vec x}f(\vec x) & = min_{\vec \mu, \vec \mu^T \vec \mu = 1} \Vert \vec \mu \Vert_2 \Vert \nabla_{\vec x} f(\vec x) \Vert_2 cos \theta \end{align}$
其中， $\theta$ 是 $\vec \mu$ 与梯度的夹角。将 $\Vert \vec \mu \Vert_2 = 1$ 代入，并忽略与 $\vec \mu$ 无关的项，就能简化得到 $min_{\vec \mu} cos \theta$ 。这在 $\vec \mu$ 与梯度方向相反时取得最小。也就是说，梯度向量指向上坡，负梯度向量指向下坡。我们在负梯度方向上移动可以减小f。这被称为最速下降法 method of steepest descent 或梯度下降 gradient descent。

最速下降建议新的点为：

$x ⃗' = x ⃗ - ϵ \nabla x f (x ⃗)$ $\begin{align} \vec x^{\prime} & = \vec x - \epsilon \nabla_x f(\vec x) \end{align}$
其中, $\epsilon$ 为学习率 learning rate, 是一个确定步长大小的正标量。我们可以通过几种不同的方式选择 $\epsilon$ 。普遍的方式是选择一个小常数。有事我们通过计算，选择使方向导数消失的步长。还有一种方法是根据几个 $\epsilon$ 计算 $f(\vec x - \epsilon \nabla_x f(\vec x))$ ，并选择其中能产生最小目标函数值的 $\epsilon$ 。这中策略称为线搜索。

最速下降在梯度的每一个元素为零时收敛，或在实践中，很接近零时。在某些情况下，我们也许能够避免运行该迭代算法，并通过解方程 $\nabla_x f(\vec x) = 0$ 直接跳到临界点。

虽然梯度下降被限制在连续空间中的优化问题，但不断向更好的情况移动一小步，即近似最佳的小移动，的一般概念可以推广到离散空间。递增带有离散参数的目标函数称为盘山 hill climbing算法。

1.5 条件概率的链式法则

条件概率：

$P (y = y ∣ x = x) = P ( y = y , x = x ) P ( x = x )$ $\begin{align} P(\mathrm y = y \mid \mathrm x = x) & = \frac {P(\mathrm y = y, \mathrm x = x)}{P(\mathrm x = x)} \end{align}$
任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
$P (x (1), \dots, x (n)) = P (x (1)) \prod i = 2 n P (x (i) ∣ x (1), \dots, x (i - 1))$ $\begin{align} P(x^{(1)}, \cdots, x^{(n)}) & = P(x^{(1)}) \prod_{i=2}^n P(x^{(i)} \mid x^{(1)}, \cdots, x^{(i-1)}) \end{align}$
这个规则被称为概率的链式法则 chain rule 或者乘法法则 product rule。

David_Hernandez

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习之数学基础 Updating

1. 常用函数的有用性质1.1 logistic sigmoid函数：σ(x)=11+e−x\begin{align}\sigma (x) &= \frac{1}{1 + e^{-x}}\end{align} logistic sigmoid函数通常用来产生Bernouli分布中的参数Φ\Phi, 因为它的范围是(0, 1), 处在Φ\Phi的有效取值范围内。sigmoid函数在变量取
复制链接

扫一扫

专栏目录