双流网络是什么?

目录

0.简介:

1.结构:

空间部分:

时间部分:


0.简介:

双流网络是视频理解里的开山之作,为什么这么说呢?因为在之前的视频理解里,使用深度网络并没有取得很好的结果,甚至说还不如之前手工特征的效果好,而双流网络则证明了,并不是深度网络不好,而是对深度网络的使用方式不对。而双流网络的有效性同时也告诉大家,当深度网络不work的时候,可以尝试引入一些先验信息,这样可以简化任务,得到很好的效果。

1.结构:

作者认为,视频可以很自然地分解成空间和时间2个部分,空间部分主要是一些外观上的信息,场景和物体,而时间部分则是关于运动信息的,描述物体是如何运动的,所以双流网络就被设计成了如图所示的网络架构,空间流学习空间信息,时间流学习时间信息,最终使用late fusion形式,将两个网络的结果做平均得到最终的输出,也可以用得到的结果丢入svm做多分类,效果更好。

1.1 空间部分:

使用的是一个变种的alexNet,使用视频帧一帧一帧的做输入。为什么空间部分有效呢?因为人的动作其实和场景中出现的物品有很大的关联,比如打网球,弹钢琴等等,识别出准确的物体对于识别动作行为是非常有帮助的。

双流网络将时间和空间分开设计的一个好处就是,空间部分可以使用ImageNet的数据集进行预训练,再在视频的数据集ucf-100上做微调,这一部分和图片分类很像,就不赘述了,文章主要聚焦在了时间信息上。

1.2 时间部分:

这部分主要讲述了2个问题,1.什么是光流,2.如何构造时间流 

光流,顾名思义,就是光的流动方向。在数学上表示光流的时候,一般把光流拆分成了2个方向:水平方向上的位移(图d),竖直方向上的位移(图e)。

输入:2帧,输入维度是240*320*3

输出:前后2帧得到一张光流图240*320*2(水平+竖直就是2),每个像素点都有值。

那在如何使用光流的时候,作者也借鉴了之前手工特征的方法,使用了多张光流图叠加在一起。

叠加方式也有2种选择,在同样的点的位置上去取光流,另一种则是利用光流的轨迹信息,已知上一张图的点p1移动到了p2,那么在下一张光流图里则去问p2去了哪里,虽然第二种方式听起来更合理,充分地利用了光流的信息,但是第一种方式其实结果比第二种要好一点。

3.测试:

空间:无论视频多长,等间距的去取25帧,每一帧去做ten crop:先取四个边角,再取中间,再将图片反转,得到另外5个。一个视频25帧就会得到250个crop,每张图都会通过2d的空间流的神经网络得到一个结果,然后将这250个结果取平均,得到空间流的结果。

时间:同样是取25帧,然后从这25帧的位置开始向后连续的取11帧,抽取光流(10个),然后将光流输入时间流的神经网络中,同样地得到时间流的结果。

最终将这空间和时间得到的结果做late fusion,取平均得到结果。

4.实验:

实验结果从时间空间2个维度来进行消融实验。

空间上:结果如图左,一种是直接进行微调,一种是固定住骨干网络,只对最后一层进行微调,dropout很大是为了解决过拟合的微调,结果符合预期。

时间上:结果如图右,以只用1个光流做baseline,结果发现,光流数越多,效果越好,使用光流的轨迹信息,结果并没有变得更好,使用双向网络,效果略微有所提升。

参考:双流网络论文逐段精读【论文精读】_哔哩哔哩_bilibili

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Yolov5双流网络是一个使用了双流卷积神经网络结构的物体检测模型。根据引用[1],在Matlab2016a、Windows10、VS2015和CPU环境下编译好的代码可以直接运行,但需要下载三个预训练好的模型才能正常使用。这些预训练模型可以在相关的博客中找到。 另外,根据引用,双流网络使用BCE损失函数来计算目标性差异损失(Objectness loss)。在此损失函数中,"obj"指的是网络预测的目标边界框与真实目标边界框的重叠度(IoU)。这个损失函数被用于计算所有样本的目标性差异损失。 引用提供了一些训练策略。其中包括多尺度训练,即在0.5倍至1.5倍之间的尺度范围内进行训练;自动根据数据集的目标重新聚类生成新的锚框;训练初期将学习率从一个非常小的值慢慢增长到设置的初始学习率;给学习变量增加一个动量,以使参数更新更加平滑;以及混合精度训练等。 总而言之,Yolov5双流网络是一个用于物体检测的模型,使用双流卷积神经网络结构,采用BCE损失函数计算目标性差异损失,并结合多种训练策略进行模型训练。 <span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [双流网络行为识别matlab代码(已编译)](https://download.csdn.net/download/u013588351/11832074)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [YOLOv5网络详解](https://blog.csdn.net/pyscl01/article/details/127906956)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值