（Tensorflow之四）激活函数、交叉熵及优化器

最新推荐文章于 2023-12-21 17:23:09 发布

abiggg

最新推荐文章于 2023-12-21 17:23:09 发布

阅读量1.7k

点赞数 1

分类专栏： AI c语言文章标签： Tensorflow 激知函数-优化器

本文链接：https://blog.csdn.net/abiggg/article/details/78907973

版权

AI 同时被 2 个专栏收录

24 篇文章 1 订阅

订阅专栏

c语言

4 篇文章 0 订阅

订阅专栏

一、激活函数

激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。那么激活函数应该具有什么样的性质呢？

可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。

1.1 sigmoid函数

f (x) = 1 1 + e - x

$f(x) = \frac{1}{1+e^{-x}}$
激活函数

标准的sigmoid函数取值范围在（0，1）之间，即将x映射在（0，1）之间分布。在实际运用中，可调整输出值分布的区间，如下公式所示：

f (x) = A 1 + e - x

$f(x) = \frac{A}{1+e^{-x}}$
则其分布区间在：(0，A)之间；

1.2 softmax函数

将N维的向量值 $[X_1,X_2,…,X_N]$ 映射至0~1区间 $[Y_1,Y_2,..,Y_N]$ ，其中 $Y_1+Y_2+…+Y_N =1$ ; 映射方法如下公式如示；

y i = e a i \sum n 1 e a j

$y_i=\frac{e^{ai}}{\sum_{1}^{n}e^{aj} }$
为什么要采用这么复杂的公式，不直接用如下线性的映射方法呢？

y i = a i \sum n 1 a j

$y_i=\frac{{ai}}{\sum_{1}^{n}{aj} }$
主要的原因是在深度学习时，大多采用反向传播的方法，此时需要Loss函数N阶可导，

ex $e^x$ 导数是直自身，求导较为简便，同时

ex $e^x$ 也是单调递增函数也能反应出向量中元素

xi $x_i$ 的概率值。
注意： softmax只是一种映射的方法，其本身并不是Loss函数；

二、交叉熵

交叉熵可理解为衡量预测概率P与直接概率q之间距离的一种方法，公式如下：
例如，对于3维数组的概率p为[0.5,0.3,0,2]，而真实分布概率q为[0.3,0.2,0.5]，那么p之间的距离是多少呢？我们不能通过简单的加减法得到，而交叉熵函数则提供了一种计算方法，计算如下：
H(p,q) = -(0.5*log0.3+0.3*log0.2+0.1*log0.5)
若另有3维数组的概率p1为[0.3,0.2,0.5]，那么其交叉熵为
H(p,q) = -(0.3*log0.3+0.2*log0.2+0.5*log0.5)
在深度学习中，可以将交叉熵作为Loss函数，目标减少p与q之间的距离；

三、优化器

3.1 梯度下降法GradientDescentOptimizer

原理：若函数f(x,y,z)可导，则(αf/αx0, αf/αy0, αf/αz0)为函数在点（x0,y0,z0）中变化最快的方向。
对于深度学习，往往是求Loss函数是最小值，即函数f(x,y,z)的极小值点。在一定的区间内，越接近极值点时，梯度值越小，变化越慢，而越远离极值点时，变化越快，从而可以实现Loss函数有方向的收敛。
这里写图片描述

3.2 AdagradOptimizer

原理：基于梯度下降法，对梯度值的选取进行了优化。优法方法如下：

Δ θ = R \sum t - 1 i = 1 * g 2 i - - - - - - - \sqrt + ϵ * g t

$\Delta\theta=\frac{R}{\sqrt{\sum_{i = 1}^{t-1}*g_{i}^2}+\epsilon}*g_{t}$
式中：

Δθ $\Delta\theta$ 为每次优化的调整量；

R $R$ 为设定的全局学习速率；

ϵ $\epsilon$ 为防止为零时的常量；

gt $g_{t}$ 为求得的梯度值；

gi $g_{i}$ 为前n次求得的梯度值；
由此公式可知：

Δθ $\Delta\theta$ 的变化受限于之前所有的梯度值。前期时，

Δθ $\Delta\theta$ 较大，而后期

Δθ $\Delta\theta$ 越来越小，该变化规律与深度学习的变化规律是一致的；
优点：若前期

Δθ $\Delta\theta$ 较小时，可以通过学习率方大梯度，加速收敛；而后期

Δθ $\Delta\theta$ 若较大，会因累积使之趋于稳定；
缺点：容易陷于局部最优，后期

Δθ $\Delta\theta$ 因累积趋于零，提前结束学习；

3.3 MomentumOptimizerOptimizer

原理：基于梯度下降法，对于梯度值进行优化，优化方法如下：

Δ θ t = Υ t * g 0 + Υ t - 1 * g 1 + Υ t - 2 * g 2 + . . . + Υ 0 * g n

$\Delta\theta_{t} = \Upsilon^{t}*g_{0}+\Upsilon^{t-1}*g_{1}+\Upsilon^{t-2}*g_{2}+...+\Upsilon^{0}*g_n$
式中：

Υ $\Upsilon$ 为冲量的衰减程度;

g0 $g_{0}$ 为每轮求得的梯度值；

t $t$ 为迭代的轮数；
冲量优化法会累积之前所有梯度值，根据衰减程序叠加入优化的步长

Δθ $\Delta\theta$ 中，使得梯度值不会产生较大的振荡；
普通方法

3.4 AdamOptimizer

原理：基于梯度下降法，对于梯度值进行优化，优化方法类似矩估计法：

m t = μ * m t - 1 + (1 - μ) * g t

$m_t = \mu*m_{t-1}+(1-\mu)*g_t$

n t = ν * n t - 1 + (1 - ν) * g 2 t

$n_t = \nu*n_{t-1}+(1-\nu)*g_t^2$

m t = m t 1 - μ t

$m_t = \frac{m_t}{1-\mu^t}$

n t = n t 1 - ν t

$n_t = \frac{n_t}{1-\nu^t}$

Υ = - m t n t - - \sqrt + ϵ * g t

$\Upsilon = -\frac{m_t}{\sqrt{n_t}+\epsilon}*g_t$

mt $m_t$ 与

nt $n_t$ 类似对梯度的一阶与二阶进行矩估计，从而对调整梯度值。这么调整有啥好处？？还得研究一下吧。。

3.5 RMSPropOptimizer

原理：同样，也是基于梯度法，优化了梯度值
求梯度的平均和

E | g 2 | t = ρ * E | g 2 | t - 1 + (1 - ρ) * g 2 t

$E|g^2|_t = \rho*E|g^2|_{t-1}+(1-\rho)*g_t^2$
再求随机均根

R M S | g 2 | t = E | g 2 | t + ϵ - - - - - - - - \sqrt

$RMS|g^2|_t =\sqrt{E|g^2|_t+\epsilon}$
将RMS均根做为学习率的约束

Δ θ = - η R M S | g 2 | t * g t

$\Delta\theta = -\frac{\eta}{RMS|g^2|_t}*g_t$

3.6 优化器的总结

上述的总总优化器，最基本的方法基实就是采用梯度法，其他的优化器都是对梯度法的调整步长进行改进。至于改进的效果怎么样，具体问题具体分析。

4 学习率

在Tensorflow中，所有的优化器，都需设定学习率。学习率并非是多高深的东西，其实就是对所求得的梯度值进行权重的调整。
例：设梯度向量法所求得的梯度值为 $g_t$ ，其调整步长：

Δ θ = R a t e * g t

$\Delta\theta = Rate * g_t$
学习率就是上述的

Rate $Rate$ 值，学习率越大，则单次调整步长越大，可以会导致函数振荡而无法收敛；而学习率过小的话，调整步长太长，收敛速率慢，需更多的训练次数。

abiggg

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
（Tensorflow之四）激活函数、交叉熵及优化器

一、激活函数激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。那么激活函数应该具有什么样的性质呢？可微性：当优化方法是基于梯度的时候，这个性质是必须的。单调性：当激活函数是单调的时候，单层网络能够保证
复制链接

扫一扫