CNN（李宏毅课程）

cx_0401

于 2021-10-29 23:21:13 发布

阅读量112

点赞数

分类专栏： cv 文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/qq_40438523/article/details/121044384

版权

cv 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

CNN李宏毅课程

图像分类
简化方法

图像分类

图片的结果表示用one-hot表示
图片的输出就是一个维度相同的向量，我们比较输出和标签用的交叉熵
在这里插入图片描述

图片的输入用一个三维的tensor表示，分别为长宽和channel（RGB）
在这里插入图片描述
问题：输入数据维度太大

简化方法

观察1. 我们发现很多时候我们不需要观察全局信息，只需要观察局部信息
CNN的设置：设置一个receptive field，在CNN中，某个神经元只考虑这个field内的数据。对于所有的field，可以任意设置，可以相同的区域、可以不同的大小、可以不同的channel、甚至可以是长方形
在这里插入图片描述
其中最经典的设置方法是根据一个kernel size（3×3），同一个field会有一组neural守备。不同的field之间的距离为stride（横纵均为2），所以field之间会有重叠。但是这个时候边边会有超出的范围，这里我们使用padding方法，也就是对图像外的部分进行补值。
在这里插入图片描述
观察2
对于不同图片，特征位置出现位置可能不一样（比如鸟嘴），如果想要全面的话，我们就需要在每一个field都要一个监测特征的neural，
这样会导致我们的参数数量太多。

这里我们用共享参数的想法处理，也就是对于每一个field的所有neural都共享同一组参数，根据监测特征的不同，分别为filter1、filter2…
在这里插入图片描述
这些filter也可以理解为抓取特征的tensor
在第一层时，因为channel为3，故第一层的filter的高度为3的tensor
在第二层时，需要根据第一层filter的数量来确定filter的tensor高度
…
这样一层一层迭代，最终能够覆盖整个图像
在这里插入图片描述
观察3

比如将原先图片奇数部分的pixel都删掉，但最后不会影响整体效果，这就是pooling操作
max pooling：将一组（2×2）内取最大的值作为区域的代表
min pooling：将一组（2×2）内取最小的值作为区域的代表
pooling实际上就是将图片变小
但近年来运算能力越来越强，这种牺牲部分精度的pooling可以不采用

cx_0401

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CNN（李宏毅课程）

CNN李宏毅课程图像分类简化方法图像分类图片的结果表示用one-hot表示图片的输出就是一个维度相同的向量，我们比较输出和标签用的交叉熵图片的输入用一个三维的tensor表示，分别为长宽和channel（RGB）问题：输入数据维度太大简化方法观察1. 我们发现很多时候我们不需要观察全局信息，只需要观察局部信息CNN的设置：设置一个receptive field，在CNN中，某个神经元只考虑这个field内的数据。对于所有的field，可以任意设置，可以相同的区域、可以不同的大小、可以不同
复制链接

扫一扫

专栏目录