一、CVPR2020的满分oral文章。
二、作者:港中文的林达华团队
三、提出了一个细粒度的用于视频理解任务的数据集。具体的话就是行为识别等,具体的论文讲解的话原作者已经再知乎贴出来了:
https://zhuanlan.zhihu.com/p/130720627
四、大概浏览了一下主要通过这篇文章自己的收获如下:
-
对粗粒度和细粒度的认识:
视频数据集中的细粒度:在图片中的粗粒度是比如区分猫和狗,细粒度就是区分狗是哪种狗;到视频的动作中的话,具体而言就是更加细化的动作类别。 -
自己主要关注的就是这篇文章最后分析中讨论的几个问题以及挖的坑:
(1)稀疏采样和密集采样:对于之前的方法,比如TSN在诸如UCF101数据集上,连续帧之间的信息是冗余的,所以稀疏采样就可以达到很好的效果,但是对于这种新的细粒度的数据集,每帧都有用,增加采样密度对识别的准确率有较大的贡献,原文说:帧帧有用,帧多势众那么如何利用好每一帧就是个大问题,这里的工作可以这么考虑:a)密集采样,但是想办法降低参数量,b)稀疏采样,但要能达到密集采样的表现,c)稀疏采样,不仅能达到密集采样的效能,还能超越,d)密集采样,但是参数量极低,比系数采样