前馈(向)网络之卷积神经网络的应用

图像识别:

卷积神经网络(CNN)

分类任务:C个类别

输入:图片,           

输出:类别标签,         

评估准则:准确率

图像识别与定位

输入:图片,         

输出:物体边界框(x,y,w,h)   

评估准则:交并准则

交并准则是预测值与真实值的交集的面积除去并集的面积,值大于0.5通常会认为是有效的定位

图像识别+定位:识别主体+定位

思路1:当作回归

当成一个回归的任务来解决定位的问题,识别问题就是一个分类任务

回归任务损失函数就是均方误差(MSE),分类任务损失函数用交叉熵损失!

step1:解决分类问题,搭建一个识别图像的神经网络(CNN),

step2:将卷积神经网络的尾部展开构建一个分类模块和回归模块,

因为卷积层,池化层是特征的抽取,激励层就是分线性变换,可以在尾部确定自己的任务!

step3:回归模块使用均方误差,在利用SGD进行学习,分类模块类似!

step4:预测阶段把两个模块拼接上,分别进行处理,

回归模块最后加在哪里?可以是最终的卷积层之后,可以是全连接层之后

对主体有更好的识别?规定好有k个组个成部分,做k个部分的回归即可

应用1:识别人的姿势?

每个人的组成部分是相同的,可以对k个关节做回归预测,然后再来进行姿势分类的问题!

思路2:借助图像窗口

类似刚才的回归,分类网络的思路,现在取所有大小不同的框,让框出现在不同的位置(这样的搜索太暴力了,会很慢),判定得分,按照得分高低对结果框做抽取和合并(策略:抽取一个框在根据分类的score得到框向哪边伸展更好,类似启发式的一种搜索框)

问题:用回归得分的过程,由于有全连接会变得很慢!

窗口的复用选择(优化):

用多层卷积层代替全连接层,引入可复用的小卷积核来进行回归/分类!

 

物体检测(实现还是使用tensorflow实现好的一套流程

边缘检测/选择性搜索----->R-CNN

选择性搜索候选框。来达到整个图片的所有物体的识别!

例如:N只猫

首先:对图片的像素点做一个自底向上的聚类(针对像素维度的分类),生成很多的候选集!

R-CNN

step1:构建一个卷积神经网络,自己做一个全连接层的修改,构建自己的任务目标

step2:对所有候选集用卷积层和池化层进行训练,取出第五个池化层的特征存储到硬盘上,然后做一个分类任务比如:使用SVM来进行分类

step3:bbox regression 回归得到滑窗位置的调整(方向的移动,缩放等等....)

问题:对所有子图单独送入神经网络抽取特征太耗费时间

R-CNN------->Fast R-CNN

对R-CNN的优化:

改进1:共享图窗,对卷积层进行一次前向计算,通过反卷积一定可以从第五层的池化层找到一些数值对应原图的某个区域,那么我就不需要对每个候选集都进行特征提取!

改进2:对SVM分类和Bbox reg回归用全连接层接上 逻辑回归和线性回归 变为 神经网络的多任务学习,只需要对损失函数log loss 和 MSE 加权 进行一个比例的调整即可!

改进3:Region of Interest Pooling(RIP)前两种改进只能对同比例大小图片进行处理,对于维度不同的子图,可以进行下采样的方法,把子图全都映射到一个比例大小上,策略:对图片的维度进行画格子变为指定维度的图片,然后对每个格子进行池化!不就可以了嘛!

对比图:

Fast R-CNN------->Faster-CNN

Fast R-CNN的问题:主要速度限制在子图候选集上(是用聚类来生成的,我能不能用神经网络来生成?)因为聚类是CPU来做的嘛,无法使用GPU加速!(适合于大型的矩阵运算和图像渲染...)

通过神经网络,RPN(Region Proposal Network)生成子图,

生成子图的策略:在图片上,取不同的中心点以不同的比例,不同的大小生成不同的候选集!比如:3个不同大小的比例,每个比例对应3个不同大小的候选框!(正方形,横的长方形,纵的长方形)

总结:two-stage的一个方法,一个stage是挑选候选框,另一个是对候选框做一个分类看是否有物体,做一个回归看候选框如何调整才好!

YOLO/SSD

Faster用于实时的检测场景中,也要7fps,是不够的,就此引出YOLO/SSD实时算法!

一步走(one-stage)算法:直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)

策略:对图片进行画格子,然后确定B个中心点,每个中心点确定几个不同比例的子图,把他当成候选集,送入神经网络里然后进行训练!

 

图像分割中的语义分割

只对每个像素距离区域,进行预测类别,只关注像素的意思这就是头牛,而不管它的其他含义(比如几头什么什么样的牛......)

对像素点(pixel)维度去做分类的一个任务!

1.滑窗处理

类似于R-CNN的思路,还可以加上对应的优化的思路,就是这样!(不光可以用在物体检测,还可以用在语义分割上

2.全卷积神经网络

输入3*H*W维度的图像,经过卷积层处理,可以构建一个C个类别的Score:C*H*W的矩阵,输出得分类别最大的一个H*W维度的矩阵!(对像素点维度去做一个分类)

总结:全卷积网络所有的层都为卷积层!

但是会有一个问题,图片现在的精度很高,直接进行处理,很难去训练出来模型,所以需要优化!

3.下采样和上采样

下采样不难理解,因为你的池化层和卷积层就是做的这样的一个事情,所以说是可以做的,但是上采样呢?

上采样一般叫为转置卷积(Transpose Convolution)/反卷积

 

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值