Counting Out Time: Class Agnostic Video Repetition Counting in the Wild个人笔记

本文是作者对RepNet论文的个人理解,重点介绍了一个用于视频重复动作计数的神经网络,以及Transformer的工作原理。RepNet在合成数据集上训练后在重复动作计数和周期检测任务中表现出色。Transformer的Encoder和Decoder结构、多头注意力机制等被详细阐述,其在视频理解和序列建模中的应用也得以讨论。
摘要由CSDN通过智能技术生成

参考https://mp.weixin.qq.com/s/olVWrq0Dca2Kulbc8xwplA
由于上述公众号文章写的有些部分不够详细,比如repnet的transformer是什么,这里写一个自己读repnet和transformer论文的个人笔记

repnet论文:
http://openaccess.thecvf.com/content_CVPR_2020/papers/Dwibedi_Counting_Out_Time_Class_Agnostic_Video_Repetition_Counting_in_the_CVPR_2020_paper.pdf

transformer论文:
https://arxiv.org/abs/1706.03762

1.repnet

本文的四大贡献:
1.repnet,用于视频动作计数的神经网络
2.从没有标签的视频生成和增强合成含有重复动作视频的一种方法
3.在合成数据集上训练的repnet在重复动作计数和周期检测任务大大超越已知所有基准方法
4.Countix,含有大量重复动作视频的数据集(超越之前最大的同类数据集的90倍)

数据:
类似kinetics较大的视频数据集的标签一般为动作语义标签,用于动作识别任务,这些视频数据集的收集大多是通过关键词搜索,从而导致只适用于分类视频内容;
repnet的数据集Countix(视频数量大约是目前同类数据集的90倍以上)主要从两方面产生:1.从kinetics中手动挑选含有重复动作的视频并计数 2.合成
在这里插入图片描述
使用时间自相关矩阵的优点 1.极限的bottleneck,即把每个512维特征转化成1维特征,有利于之后将合成数据泛化为真实数据 2.将模型解释能力融入到模型结构中(从自相关矩阵而不是高维特征进行推理)

Repnet:encoder部分为image encoder,从而得到每张输入图片的特征;然后使用这些特征构造自相关矩阵S;然后将S矩阵输入到周期预测器模块输出两个元素,一个是周期长度预测(动作重复的频率),另一个是周期性得分(显示某一帧是否在视频的某个周期内)

Encoder:包含3个部分 1.每帧输入为1121123的2d ResNet50提取771024特征 2.将这些特征传给3d卷积(512 333) 3.降维:对空间两个维度采用Global 2d max-pooling,此操作直接省

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值