神经网络学习笔记（四）

最新推荐文章于 2024-08-17 23:53:12 发布

dyc941126

最新推荐文章于 2024-08-17 23:53:12 发布

阅读量557

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/dyc941126/article/details/45127657

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、神经网络中误差函数问题

对于一个分类问题，神经网络的输出等价于计算条件概率 $f(x)_c=p(y=c|x)$ 。我们希望在训练集中的样本可以最大化上述概率，即给定训练数据点 $x^{(t)}$ ，我们希望最大化输出为 $y^{(t)}$ 的概率。为了和前面提出的经验风险最小化训练框架相结合，我们把这个最大化问题通过取负对数将其转化为一最小化问题。转化后的负对数似然目标函数定义如下：

l (f (x), y) = - \sum c 1 (y = c) l o g f (x) c = - l o g f (x) y

$l(f(x),y)=-\sum_c1_{(y=c)}logf(x)_c=-logf(x)_y$ 由于对数函数

f(x)=log(x) $f(x)=log(x)$ 是单调递增函数，那么将原目标函数取对数之后优化目标仍然是最大化问题，故应再加上负号，将其转化为最小化问题。
这里取对数的主要目的是简化数学上的推导和增强数值稳定性。

二、参数梯度计算方法

随机梯度下降算法的一个核心就是计算出每个参数的偏导数，本部分从输出层入手，给出输出层网络的偏导数计算方法，并在此基础之上，给出参数偏导的一般形式。

1.输出层的梯度计算

输出层偏导计算方法如下：

\partial l ( f ( x ) , y ) \partial f ( x ) c = \partial \partial f ( x ) c - l o g f (x) y = - 1 ( y = c ) f ( x ) y

$\frac{\partial l(f(x),y)}{\partial f(x)_c}=\frac \partial {\partial f(x)_c}-logf(x)_y=-\frac{1_{(y=c)}}{f(x)_y}$ 则输出层的梯度为：

\nabla f (x) - l o g f (x) y = - 1 ( y = c ) f ( x ) y ⎡ ⎣ ⎢ ⎢ 1 ⋮ 1 ⎤ ⎦ ⎥ ⎥ = - e ( y ) f ( x ) y

$\begin{align}&\nabla_{f(x)}-logf(x)_y\\&=-\frac {1_{(y=c)}}{f(x)_y}\begin{bmatrix}1\\\vdots\\1\end{bmatrix}\\&=-\frac{\mathbf e(y)}{f(x)_y}\end{align}$ 其中，

e(y) $\mathbf e(y)$ 表示一个列向量，该列向量的第

y $y$ 个元素为

1 $1$ 其他元素为

0 $0$ 。

2.输出层预激励的梯度计算

输出层预激励的推导过程较为复杂，这里先给出推导结果，再给出推导过程。误差函数对预激励求偏导的结果为：

\partial \partial a ( L + 1 ) ( x ) - l o g f (x) y = - (1 (y = c) - f (x) c)

$\begin{align}&\frac\partial{\partial a^{(L+1)}(x)}-logf(x)_y\\&=-(1_{(y=c)}-f(x)_c)\end{align}$ 则其梯度为：

\nabla a (L + 1) (x) - l o g f (x) y = - (e (y) - f (x))

$\begin{align}&\nabla_{a^{(L+1)}(x)}-logf(x)_y\\&=-(\mathbf e(y)-f(x))\end{align}$ 下面给出推导过程：

\partial \partial a ( L + 1 ) ( x ) c - l o g f (x) y = - 1 f ( x ) y \partial f ( x ) y \partial a ( L + 1 ) ( x ) c

$\begin{align}&\frac\partial{\partial a^{(L+1)}(x)_c}-logf(x)_y\\&=\frac{-1}{f(x)_y}\frac{\partial f(x)_y}{\partial a^{(L+1)}(x)_c}\end{align}$ 注意到

f(x)y=softmax(a(L+1)(x))y)=ea(L+1)(x)y∑c′ea(L+1)(x)c′ $f(x)_y=softmax(a^{(L+1)}(x))_y)=\frac {e^{a^{(L+1)}(x)_y}}{\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}}}$ ，于是有

原 式 = - 1 f ( x ) y \partial \partial a ( L + 1 ) ( x ) c e a ( L + 1 ) ( x ) y \sum c ' e a ( L + 1 ) ( x ) c ' = - 1 f ( x ) y (\partial \partial a ( L + 1 ) ( x ) c e a ( L + 1 ) ( x ) y \sum c ' e a ( L + 1 ) ( x ) c ' - e a ( L + 1 ) ( x ) y ( \partial \partial a ( L + 1 ) ( x ) c \sum c ' e a ( L + 1 ) ( x ) c ' ) ( \sum c ' e a ( L + 1 ) ( x ) c ' ) 2) = - 1 f ( x ) y (1 ( y = c ) e a ( L + 1 ) ( x ) y \sum c ' e a ( L + 1 ) ( x ) c ' - e a ( L + 1 ) ( x ) y \sum c ' e a ( L + 1 ) ( x ) c ' e a ( L + 1 ) ( x ) c \sum c ' e a ( L + 1 ) ( x ) c ') = - 1 f ( x ) y (1 (y = c) s o f t m a x (a (L + 1) (x)) y - s o f t m a x (a (L + 1) (x)) y s o f t m a x (a (L + 1) (x)) c) = - 1 f ( x ) y (1 (y = c) f (x) y - f (x) y f (x) c) = - (1 (y = c) - f (x) c)

$\begin{align}原式&=\frac{-1}{f(x)_y}\frac{\partial}{\partial a^{(L+1)}(x)_c}\frac {e^{a^{(L+1)}(x)_y}}{\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}}}\\&=\frac{-1}{f(x)_y}(\frac{\frac{\partial}{\partial a^{(L+1)}(x)_c}e^{a^{(L+1)}(x)_y}}{\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}}}-\frac{e^{a^{(L+1)}(x)_y}(\frac{\partial}{\partial a^{(L+1)}(x)_c}\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}})}{(\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}})^2})\\&=\frac{-1}{f(x)_y}(\frac{1_{(y=c)}e^{a^{(L+1)}(x)_y}}{\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}}}-\frac{e^{a^{(L+1)}(x)_y}}{\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}}}\frac{e^{a^{(L+1)}(x)_c}}{\sum_{c^\prime}e^{a^{(L+1)}(x)_{c^\prime}}})\\&=\frac{-1}{f(x)_y}(1_{(y=c)}softmax(a^{(L+1)}(x))_y-softmax(a^{(L+1)}(x))_ysoftmax(a^{(L+1)}(x))_c)\\&=\frac{-1}{f(x)_y}(1_{(y=c)}f(x)_y-f(x)_yf(x)_c)\\&=-(1_{(y=c)}-f(x)_c)\end{align}$
下一章将给出隐层梯度计算的一般形式。

dyc941126

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络学习笔记（四）

一、神经网络中误差函数问题对于一个分类问题，神经网络的输出等价于计算条件概率f(x)c=p(y=c|x)f(x)_c=p(y=c|x)。我们希望在训练集中的样本可以最大化上述概率，即给定训练数据点x(t)x^{(t)}，我们希望最大化输出为y(t)y^{(t)}的概率。为了和前面提出的经验风险最小化训练框架相结合，我们把这个最大化问题通过取负对数将其转化为一最小化问题。转化后的负对数似然目标函数定义
复制链接

扫一扫

专栏目录