Counting Out Time: Class Agnostic Video Repetition Counting in the Wild个人笔记

最新推荐文章于 2020-11-16 22:15:17 发布

ystsaan

最新推荐文章于 2020-11-16 22:15:17 发布

阅读量644

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_42388228/article/details/107086529

版权

本文是作者对RepNet论文的个人理解，重点介绍了一个用于视频重复动作计数的神经网络，以及Transformer的工作原理。RepNet在合成数据集上训练后在重复动作计数和周期检测任务中表现出色。Transformer的Encoder和Decoder结构、多头注意力机制等被详细阐述，其在视频理解和序列建模中的应用也得以讨论。

摘要由CSDN通过智能技术生成

参考https://mp.weixin.qq.com/s/olVWrq0Dca2Kulbc8xwplA
由于上述公众号文章写的有些部分不够详细，比如repnet的transformer是什么，这里写一个自己读repnet和transformer论文的个人笔记

repnet论文：
http://openaccess.thecvf.com/content_CVPR_2020/papers/Dwibedi_Counting_Out_Time_Class_Agnostic_Video_Repetition_Counting_in_the_CVPR_2020_paper.pdf

transformer论文：
https://arxiv.org/abs/1706.03762

1.repnet

本文的四大贡献：
1.repnet，用于视频动作计数的神经网络
2.从没有标签的视频生成和增强合成含有重复动作视频的一种方法
3.在合成数据集上训练的repnet在重复动作计数和周期检测任务大大超越已知所有基准方法
4.Countix，含有大量重复动作视频的数据集(超越之前最大的同类数据集的90倍)

数据：
类似kinetics较大的视频数据集的标签一般为动作语义标签，用于动作识别任务，这些视频数据集的收集大多是通过关键词搜索，从而导致只适用于分类视频内容；
repnet的数据集Countix(视频数量大约是目前同类数据集的90倍以上)主要从两方面产生：1.从kinetics中手动挑选含有重复动作的视频并计数 2.合成
在这里插入图片描述
使用时间自相关矩阵的优点 1.极限的bottleneck，即把每个512维特征转化成1维特征，有利于之后将合成数据泛化为真实数据 2.将模型解释能力融入到模型结构中(从自相关矩阵而不是高维特征进行推理)

Repnet：encoder部分为image encoder，从而得到每张输入图片的特征；然后使用这些特征构造自相关矩阵S；然后将S矩阵输入到周期预测器模块输出两个元素，一个是周期长度预测(动作重复的频率)，另一个是周期性得分(显示某一帧是否在视频的某个周期内)

Encoder：包含3个部分 1.每帧输入为1121123的2d ResNet50提取771024特征 2.将这些特征传给3d卷积(512 333) 3.降维：对空间两个维度采用Global 2d max-pooling，此操作直接省

最低0.47元/天解锁文章

ystsaan

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Counting Out Time: Class Agnostic Video Repetition Counting in the Wild个人笔记

参考https://mp.weixin.qq.com/s/olVWrq0Dca2Kulbc8xwplA由于上述公众号文章写的有些部分不够详细，比如repnet的transformer是什么，这里写一个自己读repnet和transformer论文的个人笔记repnet论文：http://openaccess.thecvf.com/content_CVPR_2020/papers/Dwibedi_Counting_Out_Time_Class_Agnostic_Video_Repetition_Coun
复制链接

扫一扫

专栏目录