深度学习入门读书笔记:Day-14

最新推荐文章于 2024-02-20 17:19:56 发布

「已注销」

最新推荐文章于 2024-02-20 17:19:56 发布

阅读量303

点赞数

1.进行手写数字识别的深度CNN:

(1).网络的特点：

基于3*3的小型滤波器的卷积层；
激活函数是ReLU;
全连接层的后面使用了Dropout;
基于Adam的最优化；
使用He初始值作为权重初始化。

(2).提高识别精度的方法

集成学习、学习率衰减、Data Augmentation(数据扩充)等。

数据扩充基于算法"人为地"扩充输入数据。即通过施加旋转、垂直或水平方向上的移动等微小的变化，增加图像的数量，这在图像数量有限的时候比较有效。

2.加深层

加深层可以减少网络的参数的数量。与没有加深层的网络相比，加深了层的网络可以用更少的参数达到同等水平的表现力。

(1).加深层的好处：

可以减少网络的参数；
使学习更加高效；
分层次地传递更多信息。
叠加小型滤波器来加深网络的好处是可以减少参数的数量，扩大感受野(receptive filed,给神经元施加变化的某一个局部空间区域)。并且，通过叠加层，将RelU等激活函数夹在卷积层中间，进一步提高了网络的表现力。这是因为向网络添加了基于激活函数的“非线性”表现力；通过非线性函数的叠加，可以变现更加复杂的东西。

3.深度学习的小历史

基于深度学习的方法(统称为AlexNet)

ImageNet数据集，拥有包括100万张图像的数据集。

(1).代表性网络

VGG.
VGG是由卷积层和池化层构成的基础的CNN.它的特点是将有权重的层(卷积层或者全连接层)叠加至16层(或者19层)，具备了深度(根据层的深度，也称为VGG16或VGG19).

基于3*3的小型滤波器的卷积层的运算是连续进行的，重复进行（卷积层重叠2次到4次，再通过池化层将大小减半）的处理，最后经由全连接层输出结果。

GoogleNet

GoogLeNet在横向上有广度(称为Inception结构)，纵向上有深度。
Inception结构使用了多个大小不同的滤波器(和池化)，最后再合并他们的结果。

GoogLeNet中多次使用了1*1的滤波层的卷积层。通过该运算可以在通道方向上减小大小，有助于减少参数和实现高速化处理。

ResNet.
ResNet微软开发的网络。并非所有的加深层，都能提高学习性能。ResNet针对该问题，导入了“快捷结构”，这样就可以随着层的不断加深而不断的提高神经网络。

快捷结构横跨（跳过）了输入数据的卷积层，将输入x合计到输出。通过这种快捷结构，原来的2层卷积层的输出F(x)-->>F(x)+x;在反向传播时，信号可以无衰减地传递。
反向传播时会将来自上游的梯度原封不动地传向下游。基于快捷结构，梯度不会变小（或变大），能够向前一层传递“有意义的梯度”，通过这个结构，之间因为加深梯度而导致的梯度变小的梯度消失问题就可以得到缓解。
ResNet通过以2个卷积层为间隔跳跃地连接来加深层。

4.深度学习的高速化

问题(目标)：
在AlexNex中，大多数时间都被浪费在卷积层中。因此，深度学习的高速化的主要课题转变为如何高速、高效地进行大量的乘积累积运算。

基于GPU的高速化，
GPU原本是作为图像专用的显卡使用的，但最近不仅用于图像处理，也用于通用的数值计算。GPU主要是由NVIDA和AMD两家公司提供。大多数深度学习的学习框架基于NIVIDA的GPU.
分布式学习框架：
Google的terserflow、微软的CNTK（Computational Network Toolki）.以大型数据中心的低延高、通吐网络作为支撑。
运算精度位数的缩减
深度学习的高速化中，需要考虑中间数据以及权重参数的储存。

4.深度学习的应用案例：

物体检测：从图像中确定物体的位置，并进行分类的问题(确定物体的种类和物体的位置)。R-CNN方法。

注：2.候选区域的提取；3.CNN特征的计算。

图像分割是指在像素水平上对图像进行分类。使用以像素为单位对各个对象分别着色的监督数据进行学习。推理时，随输出图像的所有像素进行分类FCN方法。

FCN是全部由卷积层构成的网络，相对于一般的CNN包含全连接层，FCN将全连接层替换成发挥相同作用的卷积层。在物体识别中使用的网络的全连接层中，中间数据的空间容量被作为排成一列的节点进行处理，而由卷积层构成的网络中，空间容量可以保持原样直到输出。FCN最后进行的扩大处理是通过去卷积(逆卷积运算)来实现的。

图像标题的生成：融合了计算机视觉和自然语言。基于深度学习生成图像标题的代表性方法是NIC(Neural Image Caption)模型，是由深层的CNN和处理自然语言的RNN（Recurrent Nerual Network）构成，RNN是呈递归式连接的网络，经常被用于自然语言、时间序列数据等连续性数据上。
NIC基于CNN从图像中提取特征，并将这个特征传给RNN.RNN以CNN提取出的特征为初始值，递归地生成文本。—》组合图像和自然语言等多信息进行处理称为多模态处理。

5.深度学习的未来：

图像风格变换：

在学习过程中使用网络的中间数据近似内容图像的中间数据。通过学习过程中减小风格矩阵的偏差，就可以使输出图像接近梵高的风格。

图像的生成：如基于DCCAN（Deep Convolutional Generative Adversarial Network）方法生成的卧室图像。
自动驾驶：基于CNN的神经网络SegNet。
Deep Q-network(强化学习)：
让计算机也在摸索试验的过程中自主学习，称为强化学习。
强化学习的基本框架是：代理(Agent)根据环境选择行动，然后通过这个行动改变环境。根据环境的变化，代理获得某一种报酬。强化学习的目的是决定代理的行动方针，以获得更好的报酬。代表：Deep Q-network（DQN）

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习入门读书笔记:Day-14

1.进行手写数字识别的深度CNN:(1).网络的特点：基于3*3的小型滤波器的卷积层；激活函数是ReLU;全连接层的后面使用了Dropout;基于Adam的最优化；使用He初始值作为权重初始化。(2).提高识别精度的方法集成学习、学习率衰减、Data Augmentation(数据扩充)等。数据扩充基于算法"人为地"扩充输入数据。即通过施加旋转、垂直或水平方向上的移动等微小...
复制链接

扫一扫