参考https://mp.weixin.qq.com/s/olVWrq0Dca2Kulbc8xwplA
由于上述公众号文章写的有些部分不够详细,比如repnet的transformer是什么,这里写一个自己读repnet和transformer论文的个人笔记
repnet论文:
http://openaccess.thecvf.com/content_CVPR_2020/papers/Dwibedi_Counting_Out_Time_Class_Agnostic_Video_Repetition_Counting_in_the_CVPR_2020_paper.pdf
transformer论文:
https://arxiv.org/abs/1706.03762
1.repnet
本文的四大贡献:
1.repnet,用于视频动作计数的神经网络
2.从没有标签的视频生成和增强合成含有重复动作视频的一种方法
3.在合成数据集上训练的repnet在重复动作计数和周期检测任务大大超越已知所有基准方法
4.Countix,含有大量重复动作视频的数据集(超越之前最大的同类数据集的90倍)
数据:
类似kinetics较大的视频数据集的标签一般为动作语义标签,用于动作识别任务,这些视频数据集的收集大多是通过关键词搜索,从而导致只适用于分类视频内容;
repnet的数据集Countix(视频数量大约是目前同类数据集的90倍以上)主要从两方面产生:1.从kinetics中手动挑选含有重复动作的视频并计数 2.合成
使用时间自相关矩阵的优点 1.极限的bottleneck,即把每个512维特征转化成1维特征,有利于之后将合成数据泛化为真实数据 2.将模型解释能力融入到模型结构中(从自相关矩阵而不是高维特征进行推理)
Repnet:encoder部分为image encoder,从而得到每张输入图片的特征;然后使用这些特征构造自相关矩阵S;然后将S矩阵输入到周期预测器模块输出两个元素,一个是周期长度预测(动作重复的频率),另一个是周期性得分(显示某一帧是否在视频的某个周期内)
Encoder:包含3个部分 1.每帧输入为1121123的2d ResNet50提取771024特征 2.将这些特征传给3d卷积(512 333) 3.降维:对空间两个维度采用Global 2d max-pooling,此操作直接省