pytorch视频笔记1-卷积神经网络基础

图片的表示

输入一张灰度图(一个通道)
在这里插入图片描述
用一个矩阵表示,矩阵的每个元素代表每个位置的像素值,大小为0~255
(经常归一化为0~1)
在这里插入图片描述
输入一张彩色图,有RGB三个通道,每张表存储相应的分量
在这里插入图片描述
在这里插入图片描述
常用的表示形式
在这里插入图片描述
在这里插入图片描述

全连接层的缺点

以28×28的手写字符为例,输入时处理为784×1的向量,假设中间节点为256个,输出为10个节点(一共10类)
参数量为784×256 +256×256+256×256+256×10=390K
参数量大!!!
在这里插入图片描述

卷积的产生

1.感受野

借助于生物学的知识
例如图片中的小孩,在一个场景中首先注意到的是蛋糕,他不是一次性把场景中的所有信息全部关注到,而是局部地接受信息。
在这里插入图片描述

2.卷积神经网络

以滑动窗口的形式进行特征提取,利用局部相关性(不再需要全连接)
以手写字符识别网络为例,假设卷积核大小为3×3,第一层卷积层的参数为9×256(卷积核权重共享)
在这里插入图片描述

全连接层与卷积层对比

参数量变化784×256 → 9×256
在这里插入图片描述
卷积利用的是局部相关性
在这里插入图片描述

卷积操作

1.什么是卷积

(1)连续信号中的卷积操作
在这里插入图片描述
(2)图像中的卷积操作
在这里插入图片描述

2.不同的卷积核提取不同的特征图

(1)使边缘更锐利
在这里插入图片描述
(2)图像模糊
在这里插入图片描述
(3)边缘检测
在这里插入图片描述

3.卷积提取特征的可视化结果

在这里插入图片描述
(1)一个卷积核的情况(得到一个feature map)
在这里插入图片描述
(2)多个卷积核的情况
比如有用于sharpen的,用于blur的,用于edge的(有多少个卷积核就得到多少个特征图)
在这里插入图片描述
卷积操作过程的可视化
在这里插入图片描述

4.几个专用语的解释

(1)输入通道数:输入图片的通道数,灰度图就一个通道,彩色图有三个通道;
(2)卷积核通道数:跟输入图片的通道数对应,中间层卷积核通道数与特征图通 道数对应;
(3)卷积核大小:常用的有1×1(有特殊的用处),3×3(常用的size),5×5,7×7;
(4)步长:1,2等(有降维的作用)
(5)padding:补零(可以保持输出size跟输入一致)等
在这里插入图片描述

5.举个栗子消化一下

(1)假设输入是b张彩色图像,每张图像有三个通道,尺寸是28×28;
(2)那么第一个卷积核的通道数是3(与输入图像的通道数一致),尺寸可以自行设置(例如设置为3×3);注意:图片里的one k 28是错的!!!
(3)multi-k(中间层的卷积核),根据上一层输出的特征图数量来决定卷积核的通道数(可以理解为卷积核的种类数),这里假设为16;其中的3也叫做通道数(要跟前面的16区分),是指每种卷积核对应的3个通道;
(4)偏置的个数跟卷积核通道数(种类数,16)一致;
在这里插入图片描述
这里给出了每层卷积层提取的特征图示例
(低层卷积层一般提取的是一些简单的特征)
在这里插入图片描述

卷积神经网络的其他操作

1.采样

分为上下采样
最近邻,双线性,双三次插值等
下图给出的是按尺度因子取样的示例
在这里插入图片描述

2.池化

最大池化(如图),平均池化(对应区域取平均值)
在这里插入图片描述

3.激活函数

例如ReLu激活函数(小于0的值输出为0,大于0的值线性输出)
图中那些黑色的区域(相当于像素值为 0),经过ReLu之后黑色部分就去掉了
在这里插入图片描述
关于激活函数的更多讲解参考如下
参考一
参考二
最后再把这个经典的网络结构分析分析。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值