Task:Facial Expression Recognition
创新点:Teacher-student + Point Adversarial Attack.
这篇论文使用Point Adversarial Attack自适应的选择每个image所要攻击的position,这个position是一个点(x,y)坐标,并且该position依赖于图像的分布和网络的预测能力,旨在找出对于预测最为sensitive的position,然后以这个点作为center将其局部信息mask掉,然后使用teacher-student网络结构利用teacher网络进行知道,迭代self mined knowledge,将每次更新后的student网络作为下一次的teacher网络
Initialize a Teacher Network
Sensitive Location Search via Point Adversarial Attack
由于在一个image中每个region对于prediction所做出的的贡献是不同的,并且每个image的distribution也是不同的,因此每个image的key region(s)是不同的,作者使用point Adversarial Attack旨在有选择的且自适应的找到那个sensitive position
点攻击计算的关键部分是基于differential evolution-差分进化,而不是梯度下降/上升。
对于这句话,我的理解是,使用不同的网络,因此每次迭代更新后所攻击的position是不同的,即teacher-student网络
Generating New Learning Materials to Learn
mask的位置是以(px,py)为中心,扩展出一个局部区域
Update New Teacher to Guide Student
用来定位攻击信息的网络作为teacher,并在本轮中fix,为student生成一个logits signal,同时也对应一个one-hot vector label ,来训练student网络(一个疑问:student网络的初始化是什么?)
让student的prediction和真值相同,并且要和teacher的预测保持一致
Iterative Mining Mechanism.
随着网络的预测能力的提升,定位的sensitive position也会不同,因此每次都会向student提供一个新的学习样本
这里有一个问题:为什么会更新teacher??
EXPERMENT
实验做的还是挺多的
Performance Evaluation
-
Inner-dataset Evaluations
-
Evaluations on Occlusion-RAF-DB and Pose-RAF-DB
-
Cross-dataset Evaluations
Generality of the Mined Knowledge
作者说训练网络和挖掘网络不同的时候,性能会稍微降一点,可能是因为参数或者结构不同
这里我不太明白,怎么使用的不同的网络,不是应该用的同一个backbone么,然后基于teacher-student 网络结构
Comparison with Random Erasing and Adversarial Erasing
Analysis of Self Mining Iterations
对与这个迭代次数是有点疑惑的,有点太少了吧?? 并且ablation基本上都是1round
Analysis of Mask Sizes and Parameter Configuration in Equation. 4
对于mask size不敏感
对这篇论文还是有挺多疑惑的
1.迭代次数太少了
2.student网络是怎么初始化的
3.ablation中怎么training network和mining network怎么使用不同的网络的