《Non-local Neural Network》
一、 主要贡献
1.提出了一种非局部连接(Non-local operations)的计算块 (building block),用于处理视频和图像的长程依赖关系(long-range dependency);
2.在视频数据集Kinetics and Charades datasets,目前最优(对比2D或3D卷积网络);
3.图像分类数据集COCO,能够提升精度。
二、 非局部连接操作
1. 启发性方法:非局部均值方法(non-local means methods)
非局部均值滤波是Buades等 在2005年提出的一种滤波方法。其基本思想是根据图像的自相似性来计算邻域像素的权重。NML算法首先需要选取两个窗,分别为相似窗和搜索窗,相似窗被选取用于比较两个像素的相似性,搜索窗被选择用于确定计算相似像素的范围。中心像素i与其邻域的像素j之间的相似性权重是根据两像素相似窗高斯加权的欧式距离决定。
总结一下方法:
a) 假设图像的噪声是高斯噪声,高斯噪声的求和趋向于0;
b) 在图像的不同区域或者不同时域,存在一定的区域是相似的,把这些相似区域不断相加(具有一定权重,权值与相似度有关),则累加的越多,高斯噪声的影响就趋向于0,则图像通过这样的算法越来越清晰。
2. 这样做的动机:
在卷积网络中,卷积层之前添加这些非局部操作,相当于在这些层之前进行降噪操作,消除feature map中的噪声。
同时应该也有获取非局部区域的信息相关性的考虑,即比如卷积是通过不断进行局部信息聚合(卷积)的操作来获取更大范围的相关性信息,而添加这种操作可以让卷积只关注局部信息,应该能起到减少层数的作用。
3. 非局部连接的数学公式: