神经网络概念新颖解释+BP算法

最新推荐文章于 2022-07-27 10:36:26 发布

未来可期-2018

最新推荐文章于 2022-07-27 10:36:26 发布

阅读量234

点赞数

文章标签：神经网络深度学习人工智能算法

本文链接：https://blog.csdn.net/weixin_43310853/article/details/104571620

版权

文章目录

1 概念

这些图片主要是摘选自B站up主3Blue1Brown创作的深度学习 Deep Learning。摘抄这些up主在mnist数字识别中对神经网络的complex concepts的visualization或者assumption，是期望获得对神经网络概念更加形象化的认识。

1.2 记号新颖解释

记号	解释
输入值	图片可以视为 $\displaystyle A_{28 \times 28}$ 灰度值矩阵展开得到 $\vec x_{784\times 1}$
weights	形象表明连接的强弱
bias	形象表明神经元是否更容易被激活
`lossfunction(costfunction)`	告诉电脑选的参数多糟
激活值`activation`	神经元视为一个装有激活值的容器

在这里插入图片描述

1.3 各层含义

在这里插入图片描述

第一层为灰度图片的输入值灰度矩阵 $A_{28\times 28}$
中间层称为隐含层hidden layers，可先视为黑箱
最后一层softmax将倒数第二层输入值映射到 $(0, 1)$ 之间作为分成十个数字的概率

1.4 各层功能的新颖解释

在这里插入图片描述

up主的比较新颖的解释，认为第二层点亮的那些神经元能识别组成9的短边，然后第三层点亮的那些神经元能点亮组成9的更完整的图案，然后最终第四层点亮的神经元能识别一个完整的9。尽管up主最后说这种想法是错误的，但是我觉得这种想法本身很新颖。

2. 前馈神经网络

数据从输入开始，流过中间计算过程，最终到达输出层。
模型的输入和输出两者之间没有反馈。

比如这张图输入数据 $x^T$ 流经激励函数，再流到代价函数 $J$ ，而中间没有向回流反馈

3. BP算法

3.1 单个神经元

设输入为 $\vec x=[x_1,x_2,x_3]^T$ ， $y$ 为目标值
进行前向传播

$z=\sum_{i=1}^3w_ix_i+b=\vec w\cdot \vec x+b$

$a=f(z)=\frac{1}{1+e^{-z}}$

$J(w,b,x,y)=\frac{1}{2}\Vert (a-y)\Vert^2$

进行反向传播

$\frac{\partial J}{\partial a}=-(y-a)$

$\frac{\partial J}{\partial z}=\frac{\partial J}{\partial a}\frac{\partial a}{\partial z}=\frac{\partial J}{\partial a}*(a(1-a))$

$\frac{\partial J}{\partial w}=\frac{\partial J}{\partial z}\frac{\partial z}{\partial w}=\frac{\partial J}{\partial z}x^T$

$\frac{\partial J}{\partial b}=\frac{\partial J}{\partial z}\frac{\partial z}{\partial b}=\frac{\partial J}{\partial z}$

从代价函数开始，从输出到输入，求各节点的偏导，在这个过程中先后求出 $\frac{\partial J}{\partial a}、\frac{\partial J}{\partial z}、\frac{\partial J}{\partial w}、\frac{\partial J}{\partial b}$

然后利用梯度下降法更新w，b

$w=w-\lambda \frac{\partial J}{\partial w}$

$b=b-\lambda\frac{\partial J}{\partial b}$

然后再重复进行前向算法查看 $J (w, b, x, y)$ 是否达到要求或者达到迭代步数

3.2 多层神经网络

设 $\vec \theta=[w_0,w_1,w_2,\cdots,w_{m},b_0,b_1,\cdots,b_n]^T$

和上面的单个神经元BP算法类似，通过反向传播获得梯度 $\nabla lossfunction(\vec \theta)$

更新参数: $\vec \theta=\vec \theta-\lambda\nabla lossfunction(\vec \theta)$

最终求得的就是最优的 $\vec \theta$ 使得 $l o s s f u n c t i o n$ 最小

4. 模型过程

4.1 回归问题

以 $y = w x + b$ 一维线性预测为例

首先初始化w和b

定义模型model: $y = f (w x + b)$ 经过隐含层求出预测值 $\hat y$

定义均方误差 $\displaystyle lossfunction=\frac{\sum_{i=1}^n(\hat y_i-y_i)^2}{n}$

然后利用梯度下降求出适当的 $w, b$ 使得 $l o s s f u n c t i o n$ 达到条件之后退出迭代

再将不在样本中的x带入model就可以得到预测值

4.2 分类问题

以mnist图像识别为例

首先给出一个初始化的w和b

定义模型 model: $y = f (w x + b)$ 经过隐含层输出然后利用softmax分类器求出预测的概率 $pred=[p(x_1),p(x_2),\cdots,p(x_n)]$

然后 $l o s s f u n c t i o n$ 为pred和ans的交叉熵

利用梯度下降求得适当的 $w, b$ 使得 $l o s s f u n c t i o n$ 到达要求之后退出迭代

最终输出准确率(用 $t f . a r g m a x (p r e d, 1) = = t f . a r g m a x (y, 1)$ 来统计在testdata里面分类成功的个数)

再将不在样本中的x带入model就可以得到预测分类

未来可期-2018

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络概念新颖解释+BP算法

文章目录1.前馈神经网络2.大名鼎鼎的BP算法1.前馈神经网络与数据往前流有关，数据从输入开始，流过中间计算过程，最终到达输出层。模型的+ 输入和输出本身没有反馈。前馈神经网络包括单层感知机、多层感知机、卷积神经网络Feedforward Neural Network反馈神经网络:例循环神经网络RNN神经网络的万能近似定理如线性模型，SVM，集成学习都可通过神经网络实现深度学习中的...
复制链接

扫一扫