一文读懂神经网络

最新推荐文章于 2024-03-09 10:41:52 发布

Simple^^

最新推荐文章于 2024-03-09 10:41:52 发布

阅读量1.1k

点赞数 2

分类专栏： Algorithm 文章标签：深度学习神经网络交叉熵 cost

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ifisher999/article/details/81165359

版权

Algorithm 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

1.1由简单函数到复杂函数

1.2复杂函数衍生到神经网络

2.1softmax激活函数

2.2softmax函数求导

2.3sigmoid激活函数

2.4sigmoid函数求导

3.1二次代价函数

3.2交叉熵代价函数

1前向传播

1.1由简单函数到复杂函数

图1 正比例函数图像

<x标量，y标量>一维简单函数：e.g. $y=a_{(1,1)}x_{(1,1)}+b_{(1,1)}$ （此为一个一维标量x，对应一个一维标量y值）

<x向量，y向量>多维复杂函数：e.g. $y=a_{(4,3)}x_{(3,1)}+b_{(4,1)}$ （此公式表示，一个三维向量x，对应一个三维向量y值）

<多维，多值向量>多维多值复杂函数：e.g. $y=a_{(4,3)}x_{(3,n)}+b_{(4,n)}$ (此公式表示，n个三维向量x，对应n个三维向量y)

1.2复杂函数衍生到神经网络

图2 神经网络图像

图2为一个四层的神经网络，分别为输入层，隐藏层*2，和输出层。神经网络主要由输入层，输出层和隐藏层组成。

先上公式：

$z_{j}^{l}=\sum _{k}\omega _{jk}^{l}a_{k}^{l-1}+b_{j}^{l}$ (1-1)

再解释：在这个公式中，和 y=ax+b 是一样的，只不过标量统一变成向量，符号对应（ a->w ， x->a , b->b ）。

$a_{k}^{l-1}$ 代表第 l-1 层的输入（ps.第0层的输入是,随着神经网络的向后进行，第1层的输出就为 $a^{ 1}$ ,然后第2层的输入就是 $a^{ 1}$ ）；

$\omega _{jk}^{l}$ 代表第 l-1 层的第个神经元连接到第层第个神经元的权重；

$b_{j}^{l}$ 代表第层的第个神经元的偏置；

$z_{j}^{l}$ 代表第层的第个神经元的输入。

$a_{j}^{l}=\sigma (\sum_{k}\omega _{jk}^{l}a_{k}^{l-1}+b_{j}^{l} )$ (1-2)

$a_{j}^{l}$ 代表第层的第个神经元的输出；

$\sigma$ 代表 sigmoid 激活函数，下面有专门一章将激活函数。

2激活函数

2.1softmax激活函数

$a_{j}^{l}=\frac{e^{z_{j}^{l}}}{\sum _{k}e^{z_{k}^{l}}}$ (2-1)

$z_{j}^{l}$ 代表第层（通常为最后一层）第个神经元输入， $a_{j}^{l}$ 代表第层第个神经元输出， ${\sum _{k}e^{z_{k}^{l}}}$ 代表第层所有神经元输入之和。

图3 softmax函数图解

从图3可以看出， softmax 函数将每个神经元的输入占当前所有神经元输入之和的比值，将多个神经元的输出映射到（0,1）区间，当做该神经元的输出，这也就可以理解为，神经元输出值越大，该神经元对应的类别是真是类别的可能性越高，进而用来进行多分类。

2.2softmax函数求导

图4 softmax函数求导步骤

2.3sigmoid激活函数

$a_{j}^{l}=\frac{1}{1+e^{-z_{j}^{l}}}$ （2-2）

$z_{j}^{l}$ 代表第层（通常为最后一层）第个神经元输入, $a_{j}^{l}$ 代表第层第个神经元输出。

sigmoid 激活函数可以作为输出单元用来解决二分类问题。

图5 sigmoid函数图像

2.4sigmoid函数求导

图6 sigmoid函数求导步骤

3代价函数

3.1二次代价函数

一元二次函数：

$y=a_{(1,1)}x_{(1,1)}{}^{2}+b_{(1,1)}x_{(1,1)}+c_{(1,1)}$ （3-1）

当a>0时候，y有最小值；

由此来看二次代价函数：

$C=\frac{1}{2n}\sum _{x}\parallel y(x)-a^{l}(x)\parallel^{2}$ （3-2）

这个是多值（多样本）的时候代价函数。简单起见，用一个样本为例说明：

$C=\frac{(y-a^{l})^{2}}{2}=\frac{\sum _{j}(y_{j}-a_{j}^{l})^{2}}{2}$ （3-3）

此函数二次项系数必大于0，所有C有最小值。

3.2交叉熵代价函数

$C=-\frac{1}{n}\sum _{x}\left [ ylna+(1-y)ln(1-a) \right ]$ （3-4）

参数 $\omega$ 的梯度计算：

图7 梯度计算步骤

4反向传播

反向传播就是从代价函数开始对权重w和偏值b求导。

https://www.zhihu.com/question/27239198?rf=24827633

http://www.cnblogs.com/charlotte77/p/5629865.html

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。