前言
1.本文重点是object relation module,尽量用较少篇幅表达清楚论文算法,其他一些不影响理解算法的东西不做赘述
2.博客主要是学习记录,为了更好理解和方便以后查看,当然如果能为别人提供帮助就更好了,如果有不对的地方请指正(论文中的链接是我经过大量搜索,个人认为讲解最清楚的参考)
论文链接
代码链接
计算机视觉中的attention机制参考:csdn、微信文章
创新点
引入attention机制,提出object relation module,来刻画不同object之间的图像特征关系和位置关系,并用在全连接层后和nms中,实现端到端并提升检测效果
问题引出
目前的检测算法基本上都是独立的检测各个object,如果模型能够学到不同object之间的关系会对检测效果有所提升,RelationNet 就是通过attention机制来刻画object之间的关系来优化检测效果
RelationNet
RelationNet 借鉴Attention Is All You Need,提出object relation module,object relation module用在全连接层后和nms模块(基于Faster R-CNN系列),如下图所示
1.object relation module
1.1 算法流程
其中 f A n f_A^n fAn、 f G n f_G^n fGn分别是图像特征和位置特征(可以认为是roi和(x,y,h,w)); N r N_r Nr、 d k d_k dk、 d g d_g dg是超参数, N r N_r Nr是relation的个数,也就是object的数量减一, d k d_k dk、 d g d_g dg默认64; W K r W_K^r WKr、 W Q r W_Q^r WQr、 W G r W_G^r WGr