神经网络学习总结#1_20181217_神经网络学习的总结-CSDN博客

本文链接：https://blog.csdn.net/u010158775/article/details/85057333

文章目录

在B站找的视频，看完总觉得应该总结一下，然后一言难尽，总结的乱七八糟，但这也是第一次开始学习神经网络的笔记，我会继续努力加油的。（观看视频过程中，完全不知道视频在讲什么，所以不强烈推荐这个视频，因为中文字幕翻译十分的诡异，但是英文听力好的同学，可以，毕竟这个视频短）。

神经网络的基本组成

在这里插入图片描述
神经网络可以被看作是在分层网络中分类器交织在一起的结果，因为在隐藏层和输出层的每个节点都有其自己的分类器。如图所示，神经网络由输入层，卷积层，激活函数、池化层、全连接层构成，其实，输入层严格意义上来说不能成为神经网络的层，因为其没有权重值。
具体可以参考： https://www.cnblogs.com/zf-blog/p/6075286.html

卷积层：

用它来进行特征提取，也成为filter. （同一个filter共享权值和偏移值）
在这里插入图片描述

卷积求解过程如下
在这里插入图片描述

在这里插入图片描述
如上图，完成卷积，得到一个331的特征图；在这里还要注意一点，即zero pad项，即为图像加上一个边界，边界元素均为0.（对原输入无影响）一般有

F=3 => zero pad with 1

F=5 => zero pad with 2

F=7=> zero pad with 3,边界宽度是一个经验值，加上zero pad这一项是为了使输入图像和卷积后的特征图具有相同的维度，如：

输入为553，filter为333，在zero pad 为1，则加上zero pad后的输入图像为773，则卷积后的特征图大小为551（（7-3）/1+1），与输入图像一样；

而关于特征图的大小计算方法具体如下：

卷积层还有一个特性就是“权值共享”原则。如下图：

如没有这个原则，则特征图由10个32321的特征图组成，即每个特征图上有1024个神经元，每个神经元对应输入图像上一块553的区域，即一个神经元和输入图像的这块区域有75个连接，即75个权值参数，则共有75102410=768000个权值参数，这是非常复杂的，因此卷积神经网络引入“权值”共享原则，即一个特征图上每个神经元对应的75个权值参数被每个神经元共享，这样则只需75*10=750个权值参数，而每个特征图的阈值也共享，即需要10个阈值，则总共需要750+10=760个参数。

补充：

（1）对于多通道图像做1*1卷积，其实就是将输入图像的每个通道乘以系数后加在一起，即相当于将原图中本来各个独立的通道“联通”在了一起；

（2）权值共享时，只是在每一个filter上的每一个channel中是共享的；

激活函数：

在卷积层(filter)的每个节点被链接到下一层中一个出发的节点时候，使用的是激活器，常用的激活函数有 Sigmoid，tanh ，RELU，常用的有RELU

池化层，

用于降低维度，对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征，如下，来自网址 https://www.cnblogs.com/zf-blog/p/6075286.html

在这里插入图片描述

全连接层：

连接所有的特征，将输出值送给分类器（如softmax分类器）。
在这里插入图片描述
另外：CNN网络中前几层的卷积层参数量占比小，计算量占比大；而后面的全连接层正好相反，大部分CNN网络都具有这个特点。因此我们在进行计算加速优化时，重点放在卷积层；进行参数优化、权值裁剪时，重点放在全连接层。
尽管CNNs很强大，这些网络有一个缺点，由于他们是监督学习算法，所以对训练数据需要先设定标签。
当开始申请标签时候，自动编码器是神经网络的重要部分，将在下方进行介绍：

补充：

memory初步推断保存的是一些参数的具体数值，方便前向后向传播的时候使用

小提示

wanilla neural network= multi-layer predceptron (MLP)或者多层感知；神经网络的预测精度取决于其权重和偏移量

神经网络方法使用大致分类：

对于Text Processing，使用循环网络 (RNTN)或递归神经张量网络，称之为RNTN.
对于Image Recognition, 使用深度信念网络(DBN),或者卷积网络(Convolutional Net)
对于Speech Recognition,使用循环网络( Recurrent Net)
对于物体识别，使用卷积网或者RNTN
按照时间序列分布的，最好使用循环网络(Recurrent Net)
在这里插入图片描述

用途分类

我们所见过的所有网络都是前馈神经网络，从语音识别到无人驾驶都非常通用，在一个前馈神经网络，信号从输入到输入只在一个方向上流动，一次一层，并反馈回同一层，这通常是整个网络中唯一的层（不知道视频在说什么，完全不理解）。
通常我们需要网络输出一个类别或者预测值的时候，也就是要求进行分类，回归或者预测的时候，我们选择前馈网络
Feedforward net=Classifier/Regressor;
在这里插入图片描述
与前馈网络不通的是，在经常性网络中，可以接受一些列值作为输入，并且也可以产生一系列值作为输出，（上一个图层的输出结果被添加为下一个图层的输入），能够使用序列进行操作。应用比如视频处理，Recurrent network (RNN)可以对视频进行逐帧处理。
具体参考文章https://blog.csdn.net/zhaojc1995/article/details/80572098
在这里插入图片描述

门控

通常情况下，RNN (Recurrent Neural Network)是一个极难训练网络。由于这些网络使用反向传播，每个时间步骤，相当于前馈网络中的整个图层，所以梯度指数恶化。
有几种方法可以解决整个问题，其中最受欢迎的是门控。
门控是一种帮助网络决定何时忘记当前输入以及何时记住的技术，它为未来的时间步骤（不知道在视频在说点儿啥）。如今最流行的门控类型是GRU和LSTM。除
除了门控，还有一些其他技术，如Gradient Clipping, Steeper Gate和Better optimizers.
在这里插入图片描述
另外，在训练RNN时候，GPU是通常的选择，例如在情感分析时候特征提取

正向传播

在这里插入图片描述
如上图，从输入开始的事件，其中每个激活都被发送到下一个层，被成为正向传播（forward propagation）或者 forward prop.
正向传播是神经网络对一组输入进行分类的方法
在正向传播中，每个输出与一个单独的权重，和一个总的偏差进行组合
然后在反向传播中，每个激活RBMs在步骤c）中使用称为KL散度的衡量；重复步骤a)-c)，调整权重和偏差，直到输入和重新构建是尽可能接近的。
通过正向反向传播的方式，来对参数进行调整，但是这里有一个问题就是梯度消失问题。
所以，视频简单讲解了一下有哪些方法可以解决梯度消失问题：

反向传播

不想总结了，明天再说吧

梯度消失问题：

另外，RBM有一个有趣的方面是，数据不需要被标记，而且RBM是特征提取神经网络家族的一部分，它们都被设计用来识别数据中固有的模式。这些网络也成为自动编码器，

岔话题：

在网络结构术语中，DBN与MLP是相同的。但是，当涉及到训练，它们是完全不同的。事实上，在训练方法的区别是信念网络可以被看做是一个多层RBMs, 其中一个RBM的隐藏层是“上方”RBMs.
另外，DBN是解决梯度消失的一种方案。
因为在某种程度上，在网络的结构术语中，DBN与MLP(多层感知器)是相同的

在这里插入图片描述

在这里插入图片描述
在解决梯度问题后，视频终于开始讲解CNN的话题

AutoEncoder

参考文献：https://blog.csdn.net/zb123455445/article/details/78924074
自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信息的主要成分。本质上是充当特征提取引擎。

自动编码器通常很浅，通常由输入层，输出层和隐藏。一个RBM可以被看做两个自动编码器的例子，步骤为编码和解码。通常，隐藏层中的特征用于重建输出层中的图像，自动编码器使用方向传播进行训练，使用称为”丢失“的度量。相反，到到一定程度时候，损失会衡量网络建立时候丢失的信息量，重建输入。具有最小损失量的网络将产生重建（完全不知道视频在讲什么，所以十分不推荐这个视频，因为中文字幕翻译十分的诡异，但是英文听力好的同学，可以，毕竟这个视频短）
其实这段意思是说，编码产生code，然后通过decoder复现，来反复调整参数，知道code与input的误差满意了，然后就可以了，后面的训练就用编码的code作为输入到下一层中，(decoder以后其实就不需要了)
在这里插入图片描述