深度学习入门视频-唐宇迪 (笔记加自我整理)
深度学习 第四章 卷积神经网络
1.卷积特征提取
卷积神经网络,输入数据主要是图片,图片数据是以像素的形式存储的,把每个像素点存储在计算机中。一般图片分为3个维度,长、宽、高,长和宽比较好理解,就是图片的大小,高的话是指图片存储通道,图片采用RGB通道存储,和绘画中的色彩相类似,比如色彩三原色红黄蓝,其他颜色都是由这三种颜色组合调整出来的,比如青色;图片也是一样,是采用RGB红绿蓝三种通道存储的,三个通道组合就成了我们最后能看到的图片的颜色了,所以图片的高度是3。
卷积神经网络的核心操作就是卷积层,采用过滤器将图片的主要特征抽取出来,再进行处理,一般会对图片进行多次抽取。最简单的结果就是下图,包含一层卷积层,顺序输入分别是输入层、卷积层(激活函数relu)、池化层、全连接层。
- 组成:输入层-卷积层-激活函数-池化层-全连接层
- 卷积层:
从上图粉色方框到蓝色方框,就是一次卷积,卷积是把原来的图片分成多个小块,每一个小块都是一个矩阵,从每一个矩阵中抽取出一个数值,用来代表整个小块的主要特征,原来切分的所有小块抽取出的数值可以组合成一个矩阵,就是最终输出的卷积层数据。
- 每个小区抽取出一个值,用来代表该区,注意是数值,不是矩阵
- 先把图像分成很多小区
- 每个小区找出一个值,代表该区,即主要特征
- 把所有值组合起来
- 抽取过程
假设输入的图片是32*32*3,注意这里图片高度3是固定不可变的,采用过滤器来提取图片特征,这个过滤器指定位5*5*3,注意过滤器的高度3不是随意指定的,和要提取的数据的高度一定要保持一致,长度和宽度5可以自己定义。如果采用一个过滤器器,最后会得到一个矩阵,如果采用多个过滤器,每一个过滤器代表一种特征提取方式,会产出多个矩阵,有多少个过滤器输出多少个图片矩阵,即输出层的高度是多少。
这里第一张图片中采用了两个过滤器,卷积之后得到两个矩阵,输出的高度是2;第二张图中采用了6个过滤器,卷积之后得到6个矩阵,输出的高度是6。每个过滤器的大小都是5*5*3的,可以理解为是5*5*3的三维矩阵,但是不同的过滤器中的参数是不同的,也就是三维矩阵各位的值是不同的,所以才能提取出不同组合的矩阵。
注意区别过滤器的高度、过滤器的个数、不同过滤器的参数。
- 说明
- 特征输入是32*32*3,即上一层的高是3,那么下一层用来抽取的过滤器的高也要是3,要保持一致,过滤器的长和宽可以自己指定,一般长和宽都会相同;