理解出错之处望不吝指正。
本文模型叫做EAST。作者的动机是在不降低准确率的同时提升深层模型的速度。论文的主要思想:在SiameseFC中,所有帧都用conv5的特征去检测,EAST的出发点是(外观相似或不运动的)简单帧用简单特征如像素边缘就可以定位,(经历较大外观变化的)复杂帧才需要不变性更强的深度特征进行定位。
如何判读使用当前层特征得到的检测结果是否足够好(是否要使用下一层特征),作者提出了使用强化学习的策略。
上图即为整个模型的架构,把每种特征都输入Q-Net中,使用到了Siamese Network的模型结构,但是输出部分是agent动作的选择,共包括8种动作(7种尺度变化,1种终止动作)。如果在当前层选择了stop action,则代表“EAST”(early stop)。
agent的state、action、reward定义如下:
state:,前者代表前面每一层(包括当前层)的score map的均值,后者代表前四层采取的action;
action:共8种,如上图;
reward:若IoU变大,reward=1,否则reward=-1,终止操作时,若IoU>=0.6,reward=3,否则reward=-3。