- 贡献
- 研究生物视觉感知与深度估计网络之间的可解释性关系。针对生物注意力机制,我们提出了一种自注意力融合模块,并将其与单目深度估计网络相结合,以提高网络的预测精度。
- 受生物学的视觉交互机制的启发,建立了编码器、解码器和自注意融合模块之间的信息交互,可以保留更多的目标信息和细节信息
- 设计了一个具有内部连接的解码器模块,该模块将低级细节特征与与尺度无关的特征映射的高级语义特征相结合,以优化对不同尺度对象的边缘处理。
图1:单目深度估计网络和人类视觉系统的对应关系。视网膜接受视觉信号, 开始进行信息整合传递。LGN中的神经节细胞对不同的信息进行处理,进去视觉皮层后,初级视觉皮层V1进行特征提取。V2~V4外纹状体皮层通过信息的整合和重组来完成识别和感知等任务,类似于网络中的解码部分。
图2 :建立了大脑中深度信息的形成路径与单眼深度估计网络中深度图的生成过程之间的一对一的对应关系。
步骤1:通过相机获取图像——视网膜感知。
步骤2:显示了编码器中的多通道特征提取,这一过程类似于生物机制中外侧膝状核(LGN)中的光照、颜色等特征信息的处理。
步骤3:特征图生成。利用了生物视觉中的注意力机制,与自注意力机制相结合。在生物注意机制的输入部分,V1-V4等多个皮质共同传递注意。V1-V4皮层具有多个不同大小的感受域,因此我们设计了一个自注意力融合模块,以编码器中的多层次的特征图作为输入,以确保输入信号的完整性。同样,受生物交互机制的启发,我们加强了编码器、解码器和自注意力融合模块之间特征层的信息交互,使输出深度图具有丰富的对象信息和细节信息,提高了边缘处理能力。
步骤4:生成最终的深度图。
图3 :SABV-Depth model框架图。encoder阶段的不同层的特征一起输入自注意力机制。再输入decoder。decoder阶段融合encoder阶段的特征。自注意融合模块是受生物视觉交互作用和生物注意机制的启发的。融合多层次特征图信息,减少信息丢失,利用自注意机制,丰富图像中的物体轮廓和结构细节。
图4:生物视觉通路与自注意力机制之间的关系。 自注意力可以基于输入的图像很好地触发不同空间位置的交互特征