深度学习中的多尺度信息融合技术--提高神经网络模型的精确度--动作识别

多尺度信息融合

多尺度信息融合是计算机视觉领域在很多论文中都使用到的思想,之前这段时间一直在做实验,写论文,看到了很多论文都用到了这个思想。现在终于改好论文,想总结一下(暗示没有在家偷懒)。

研究目的与意义

要设计一个网络模型,我们自然想让它的精度高,鲁棒性强。那么我们就可以用来水论文 。一般有以下技巧:
1,网络深度
2,网络宽度(如:通道数)
3,Dropout和BN
4,卷积核大小,步长,池化
5,残差结构
6,多尺度信息融合-低层和高层的特征融合,提高各项任务(分类,分割,目标检测)的精度

理论基础

所谓多尺度,实际上就是对信号的不同粒度的采样,通常在不同的尺度下我们可以观察到不同的特征,从而完成不同的任务。
在这里插入图片描述

计算机视觉的多尺度模型架构-设计方式

1.多尺度输入(多个分辨率图片输入),结果融合

在这里插入图片描述
在这里插入图片描述
比如,传统的基于图像特征金字塔的方法,还有MTCNN等多尺度测试网络。

2.多分支通道结果融合(不同感受野)

在这里插入图片描述
GoogleNet等多通道网络,通过多个尺度卷积核提取不同的 context信息

3. 多尺度特征融合

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
FCN/ SegNet等分割网络,SSD等检测网络,融合网络高低层的特征得到最终特征。其实看论文多了,可以发现很多网络都是类似于这种结构。
以上详细可参考,
【AI不惑境】深度学习中的多尺度模型设计 - 知乎
https://zhuanlan.zhihu.com/p/74710464
总结-CNN中的目标多尺度处理 - 知乎
https://zhuanlan.zhihu.com/p/70523190
【直播回放】如何设计精度更高的CNN模型_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
https://www.bilibili.com/video/BV1uJ411m7WR?from=search&seid=11141624234564031269

动作识别的多尺度特征

下面进入正题,动作识别的多尺度特征。这里我们不可避免的要引入光流的概念。
光流,定义为视频图像中的同一对象移动到下一帧的移动量。移动可能是由相机移动或者物体移动引起的。光流估计通常分为稀疏光流估计和稠密光流估计。稀疏光流估计是指在图像中选取了一些特征点进行光流估计和跟踪,而稠密光流估计则是要描述图像中每一个像素点的光流。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以上参考
光流估计网络调研_我爱计算机视觉-CSDN博客_a unifying framework international journal of comp
https://blog.csdn.net/moxibingdao/article/details/107032018

在这里插入图片描述
在论文On the Integration of Optical Flow and Action Recognition.2017.Facebook.NVIDIA中,这是2017年Facebook和NVIDIA联合发表的一篇论文。
他研究了光流对应动作识别的作用。并得出几个结论:
1,光流对于动作识别是有用的
2,边界和小位移的精度与动作识别性能最为相关
3,…等等
这里我们只要知道光流是对于动作识别是有效果的就行。
在这里插入图片描述
论文Two-Stream Convolutional Networks for Action Recognition in Videos.2014.Visual Geometry Group, University of Oxford
是2014年牛津大学视觉组的一篇论文,他把光流信息输入到网络里,和单帧信息进行融合预测,达到了良好的效果。
在这里插入图片描述
论文SlowFast Networks for Video Recognition.2018.facebook.是何恺明大佬组内的一篇论文。发表于2018年。
他里面的多尺度信息,分为low frame rate 和High frame rate。
里面的原文是:
a slow pathway(80%M-cells), operating in low frame rates, to capture spatial semantics, and a fast pathway(20%P-cells), operating in high frame rates, to capture motion at fine temporal resolution。
其中80%M-cells,20%P-cells是人眼的生物学研究。80%用来抓取静态信息(低帧率信息),20%用来抓取动态信息(高帧率信息)。
其实我们可以这样理解,这不就是就是类似多个尺度的光流信息融合吗?

相隔1帧的光流,相隔4帧的光流…然后把它们按类似20%,80%的比例结合起来。

那如果我们再加入相隔2帧的光流,相隔8帧的光流类似等等这样效果会不会更好呢?那就有待大家去研究了。

总结

  1. 多层的特征融合对所有任务都有用。
  2. 尽量压榨所有网络层的特征,提高利用效率,本质上是信息利用率的问题。
  3. 当你网络到达瓶颈时,可以尝试一下多尺度技术,无论是多尺度训练还是多尺度融合,做完这个操作你会发现你的网络到达了一个新的高度,网络性能得到飞跃。
  4. 多尺度的思想其实不仅仅可以用于图片信息,还可以用在运动信息,帧差信息等等。我们可以打开思路,想想自己的任务中有没有类似不易被发觉的多尺度信息,说不定可以又水出一篇论文
  • 11
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CIFAR-10是一个用于图像识别的数据集,其包含10个类别的50000张32x32的彩色图像。模型使用卷积神经网络(CNN)来进行图像识别。CNN通过使用卷积层来提取图像的特征,然后使用池化层来减小图像的尺寸,最后使用全连接层来分类图像。这个模型需要训练数据来学习如何将图像分类到正确的类别。 ### 回答2: CIFAR-10卷积神经网络模型是用于图像识别的一种常见模型。CIFAR-10是一个广泛使用的图像分类数据集,包含来自十个不同类别的60000个32x32彩色图像。卷积神经网络(CNN)是处理图像数据的深度学习模型。 CIFAR-10卷积神经网络模型的图像识别过程大致分为以下几个步骤: 1. 输入层:将32x32像素的彩色图像作为输入。 2. 卷积层:利用多个卷积核对输入图像进行卷积操作,提取图像的空间特征。通过卷积操作,可以获得图像内部的局部特征,并减少参数的数量。 3. 激活函数:在卷积层之后,通过给卷积结果应用激活函数,如ReLU函数,增强模型的非线性能力。 4. 池化层:对卷积层输出的特征图进行下采样,减少维度并提取图像的重要特征。 5. 全连接层:将池化层的输出展平,并与权重进行矩阵相乘,得到特征向量,然后通过全连接层进行分类操作。 6. 输出层:采用Softmax函数作为激活函数,将最终的特征向量映射为一组概率输出,表示图像属于每个类别的概率。 7. 损失函数:采用交叉熵损失函数,计算实际输出与预测输出的差距,并通过反向传播更新模型参数,提高模型的准确性。 8. 反向传播:通过梯度下降算法,更新每个层的权重和偏置,以最小化损失函数。 9. 输出预测:根据最终的概率输出结果,选择概率最高的类别作为图像的预测标签。 通过不断迭代训练集和测试集,优化模型参数,CIFAR-10卷积神经网络模型可以实现对CIFAR-10数据集图像的准确分类和识别。 ### 回答3: CIFAR-10是一个常用的图像识别数据集,其包含了10个不同物体类别的图像。卷积神经网络(Convolutional Neural Network,CNN)是一种在图像识别任务表现出色的深度学习模型。下面我将用300字文为你介绍CIFAR-10卷积神经网络模型图像识别。 CIFAR-10卷积神经网络模型图像识别任务的目标是根据给定的图像,判断它属于10个不同的类别的哪一个。这10个类别包括了飞机、汽车、鸟类、猫、鹿、狗、蛙、马、船和卡车。 卷积神经网络模型是一种特别适合图像处理任务的神经网络结构。它通过对图像进行多层卷积运算和下采样,逐渐提取图像的特征,并最终进行分类。卷积操作可以捕捉到图像的局部结构和模式,而下采样操作可以增加模型的鲁棒性和计算效率。 在CIFAR-10图像识别任务,卷积神经网络通常由多个卷积层、池化层、全连接层和输出层组成。卷积层通过在图像上进行卷积操作,提取图像的特征信息。池化层通过对卷积层的输出进行下采样,减少参数数量,并保留重要特征。全连接层接收池化层的输出,并将其转换为最终的分类结果。输出层使用softmax激活函数将分类结果进行概率分布化。 为了提高模型的性能,可以在卷积神经网络使用批归一化、dropout、激活函数等技术。批归一化可以加快模型训练速度、提高模型的鲁棒性,dropout可以减轻过拟合问题,激活函数可以引入非线性,提高模型的表达能力。 CIFAR-10卷积神经网络模型图像识别任务是一个非常有挑战性的任务,需要大量的训练样本和计算资源。通过不断优化模型结构、调整超参数和增加训练数据,我们可以提高模型的准确性,并实现更好的图像识别效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值