BAR-Net(google AI work in progress,待更新)
文章
主要是想用标准的object detection方法进行pair-wise的relationship的检测。将relation检测的任务,分解为了检测两个consecutive的object的任务。Paper提出先用一个detector将图中所有的object检测到,然后对于每一个object,利用第二个detector检测与之有interaction的object。在第二步时,还需要将第一步得到的object的box,作为binary的mask输入到第二个detector。
Paper将relation的检测任务,解耦成上式两个概率相乘。b^h代表human的box,第二个概率将其和image作为condition,以binary mask的形式输入,这种输入,paper就称之为box attention。
但是在具体实现时,paper认为使用两个不一样的detector过于cumbersome,因此改写了第一项概率的形式为: