原文:https://arxiv.org/abs/1704.03067
2017,CVPR上面的,最近重新读了一遍,之前没有细读。
文章中说的三大贡献分别是Region Adaptation(针对区域region的ROI Nets) ; Multi-labeling Learning(多AU一起学习); Optimal Temporal Fusing(时序信息)
我理解这篇文章优势在以下3点:
1,ROI Nets,虽然有人做过region提升AU检测,但是这篇文章选取region的方式更好,实际效果也更好,之前别人没有这么选的;
2,这篇文章是AU检测领域第一个同时利用AU的三大特性合起来这三点的,提升的确也比较明显;
3,文章实验部分对三个方面每个做了具体的实验和讨论,这部分做得很好
ROI Nets:具体每个AU只跟某一个很小的局部有关,单个AU分开考虑:每个区域分开训练
multi-label:AU彼此之间的相关性
LSTM:时序信息
思路出发点:
(AU本身的特性):
1,脸部不同组件特征不同
2,一张图有多个AU
3,所有的AU都是一个动作在一个时间序列中的
(外在技术储备、可实施性):
1,CNN在图片任务中十分有效
2,fast/fasterRCNN的优异表现(region)
3,LS