卷积神经网络学习笔记（花书总结.LIMU）

最新推荐文章于 2022-08-20 16:20:30 发布

千千离

最新推荐文章于 2022-08-20 16:20:30 发布

阅读量604

点赞数

分类专栏：神经网络文章标签：卷积神经网络

本文链接：https://blog.csdn.net/J_X0110/article/details/125774856

版权

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

卷积神经网络学习笔记

一.

1.卷积神经网络可以很好的处理图像数据。
2.CNN在获得精确模型的采样效率和计算上具有很高的效率，因为卷积神经网络需要的参数比感知机少，而且卷积神经网络很容易用GPU并行计算。
3.一维序列结构的任务（音频，文本和时间序列分析），通常采用RNN，对CNN进行一些调整，也可以在结构数据和推荐系统中发挥作用。
4.CNN主干基本元素包括卷积层本身，填充（padding）和步幅，用于在相邻空间区域聚集信息的池化层（pooling），每层中多通道（channel）的使用。

二.

1.多层感知机十分适合处理表格数据，表格数据中的每行对应每个样本，每列分别对应每个特征。
2.多层感知机在处理百万级数据规模时略显笨拙
3.CNN是机器学习利用自然图像中一些已知结构的创造性方法。
4.在检测一张图片中的物体时，应遵循无论采取哪一种方法都应该和物体的位置无关。
5.若有x个相同的物体随机分别于一张图片的任意位置，我们可以将图片分成n个区域，为每个区域出现该物体的可能性打分，（物体的样子并不取决于位置——"空间不变性"）
6.卷积神经网络正是将“空间不变性”的这一概念系统化，用较少的参数来学习有用的特征。
7.适合计算机视觉的神经网络结构：（1）平移不变性：不管出现在图像中的哪个位置，神经网络的底层应该对相同的图像区域做出类似的响应。（2）局部性：神经网络的底层应该只探索输入图像中的局部区域，而不考虑图像远处区域的内容，这就是“局部性”原则，最终，这些局部特征可以融合贯通，在整个图像级别上做出预测。
8.多层感知机中输入层与隐藏层均有空间结构。
9.当图像处理的局部区域很小时，卷积神经网络通常与多层感知机的训练差异可能是巨大的：
以前，多层感知机可能需要数⼗亿个参数来表⽰，而现在卷积神经⽹络通常只需要⼏百个参数，而且不需要改变输⼊或隐藏表⽰的维数。参数量的这⼀减少所付出的代价就是，我们的特征现在必须是平移不变的，且每⼀层只能包含局部的信息。以上所有的权重学习都依赖于归纳偏置，当这种偏置与实际情况相符时，我们就可以得到有效的模型，这些模型能很好地推⼴到不可⻅的数据中。但如果这些假设与实际情况不符，⽐如当图像不满⾜平移不变时，我们的模型可能难以拟合。
10.图像是由高度，宽度和颜色组成的三维张量。输入图像是三维的，我们隐藏层也采用三维张量，换句话说，对于每一个空间位置，采用一组而不是一个隐藏表示。这样⼀组隐藏表⽰可以想象成⼀些互相堆叠的⼆维⽹格。因此，我们可以把隐藏表⽰想象为⼀系列具有⼆维张量的通道，这些通道有时也被称为特征映射，因为每个通道都向后续层提供⼀组空间化的学习特征。

三.

1.卷积神经网络的设计是用于探索图像数据的。
2.严格来说，卷积层是个错误的叫法，因为它所表达的运算其实是互相关运算 (cross-correlation)，而不是卷积运算。在卷积层中，输⼊张量和核张量通过互相关运算产⽣输出张量。
3.输入的大小为h,w，卷积核的大小为a,b 则输出大小为（h-a+1），（w-b+1）。
4.卷积层对输入和卷积核权重进行互相关运算，并在添加标量偏置之后产生输出。
5.在学习卷积核中，由于卷积核是从数据中学习到的，因此无论这些层执行严格的卷积运算还是互相关运算，卷积层的输出都不会受到影响。
6.输出的卷积层有时被称为特征映射，因为它可以被视为一个输入映射到下一层的空间维度的转换器。
7.在CNN中，对于某⼀层的任意元素 x ，其感受野（Receptive Field）是指在前向传播期间可能影响 x 计算的所有元素（来⾃所有先前层）。且感受野的覆盖率可能大于某层输入的实际区域大小。当一个特征图中的任意元素需要检测更广区域的输入特征时，我们可以构建一个更深的网络。

四.

1.卷积的输出形状取决于输⼊形状和卷积核的形状。
2.由于卷积核的宽度和高度通常大于1，最终得到的输出远小于输入大小。从而原始图像的边界丢失了许多有用信息，而填充是解决此问题最有效的方法
3.有时，我们可能希望⼤幅降低图像的宽度和⾼度。例如，如果我们发现原始的输⼊分辨率⼗分冗余。步幅则可以在这类情况下提供帮助。
4.卷积神经⽹络中卷积核的⾼度和宽度通常为奇数，例如 1、3、5 或 7。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的⾏，在左侧和右侧填充相同数量的列。

五.

1.当输⼊包含多个通道时，需要构造⼀个与输⼊数据具有相同输⼊通道数⽬的卷积核，以便与输⼊数据进⾏互相关运算。
2.（1x1）的卷积层，不识别空间模式，只是融合通道。

六.

1.通常当我们处理图像时，我们希望逐渐降低隐藏表⽰的空间分辨率，聚集信息，这样的随着我们在神经⽹络中层叠的上升，每个神经元对其敏感的感受野（输⼊）就越⼤。
2.而我们的机器学习任务通常会跟全局图像的问题有关（例如，“图像是否包含⼀只猫呢？”），所以我们最后⼀层的神经元应该对整个输⼊的全局敏感。通过逐渐聚合信息，⽣成越来越粗糙的映射，最终实现学习全局表⽰的⽬标，同时将卷积图层的所有优势保留在中间层。
3.池化层具有双重目标：降低卷积层对位置的敏感性，同时降低对空间降采样表示得敏感性。
4.最大池化层与平均池化层。
5.与卷积层一样，池化层也可以改变输出形状。
6.在默认情况下，深度学习框架中的步幅与池化窗口的大小相同。但填充与步幅可以手动设定。
7.在处理多通道输⼊数据时，池化层在每个输⼊通道上单独运算，而不是像卷积层⼀样在通道上对输⼊进⾏汇总。这意味着池化层的输出通道数与输⼊通道数相同。

七.

1.LeNet由两个部分组成：（1）卷积编码器：由两个卷积层组成。（2）全连接层密集快：由三个全连接层组成。