其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。
SIGAI特约作者
Fisher Yu@Oulu
CV在读博士
研究方向:情感计算
最近看了两篇 Video-based 的 ReID 文章,做下笔记简单对比下:
第一篇CVPR2018 [1]:先对每帧的深度特征进行空间Attention,让网络自主发现对分类任务更有帮助的人体parts;然后对每Part各自进行多帧时间Attention,让网络自动评价每帧中的parts特征的质量好坏(如下图最后一行 SK,网络关注的part=黑色小包包区域,对于第1帧,全被遮挡,质量权值为0)
第二篇AAAI2019 [2]:Refining Recurrent Unit (RRU) 对多帧的历史特征,进行时空交互提炼更新,输出更新后的多帧特征; Spatial-Temporal clues Integration Module (STIM) 对多帧特征进行时空卷积整合。
不得不说,继17年18年单帧ReID后,现在基于视频的ReID陆陆续续火起来。什么叫火?就是算法不需要特别大的创新,针对视频特性来解决单帧中难以解决的问题,最后性能超SOTA,就可以发顶会了~~哈哈,纯属娱乐,火应该定义为当下对学术界有研究意义,而对工业界产品预研方向起到作用的topic。
Diversity Regularized Spatiotemporal Attention[1],CVPR2018
算法流程:
1.首先类似TSN对视频进行下采样,得到 N 帧。
2. 对每帧进行 Multiple Spatial Attention , 得到 K 个attention于不同parts 且 part间重叠尽量少的特征图。
3.对每个part类别中的N个特征图进行 temporal attention