《紫萱》
萱花寂寞红 亭亭发几丛
凝露仰宿雨 窈窕舞熏风
宜男不忍佩 仙人岂相通
解语朝暮伴 忘忧了残生
鬼炼狂魔 别梦依依到谢家 小廊回合曲阑斜 多情只有春庭月 犹为离人照落花
公司项目,已申请专利
深度学习作为新兴技术在图像领域蓬勃发展,因其自主学习图像数据特征避免了人工设计算法的繁琐,精准的检测性能、高效的检测效率以及对各种不同类型的图像任务都有比较好的泛化性能,使得深度学习技术在图像领域得到广泛应用,包括图像检测、图像分类、图像重构等。
卷积核算子作为深度学习在图像领域的关键模块,具有局部感知、权值共享和下采样的三大特性,因其出色的图像特征提取效果,成为深度学习在图像领域大放异彩的基石。
传统的卷积操作对整张图像的所有像素统一进行卷积,使得计算量偏大,且卷积核的感受野在整个图像像素上有较多重合部分,增加了重复信息及计算量。
在整个图像中,目标物体所在像素是重要的像素,在卷积过程中应该更多的加以关注,而背景像素则应该减少关注度,以防干扰目标物体的特征提取。传统卷积在滑动操作过程中,对图像所有的像素一视同仁,并没有对图像上的像素加以区分,对目标物体像素和背景像素给与同等的关注。
本专利提出一种新的层次化区块注意力卷积方法,该卷积核一方面利用图像中各区块自身像素的注意力,减少了整张图像其他区块像素的影响,使得注意力计算更加关注自身区块内的像素,减小远处图像无关像素的影响,使得卷积能更好的针对该区块中特征较明显的部分,改进了传统卷积对所有像素一视同仁的做法,使得图像中更精细的区块部分中待处理物体相关的像素能更多地进入卷积操作,无关像素更少的被卷积捕获,提高卷积提取物体特征的效率,减少无关像素的干扰;另一方面,将整张图像分割成不重叠的小区块,关注各个区域里的具体信息,减少其他区块的影响,提高目标特征的关注度,降低了计算量,最后通过再一次区块分割,使得第二次区块分割和第一次区块分割产生重叠,补足每次区块分割线处的特征信息。
层级区块注意力卷积核可以叠加使用构成金字塔层级结构,大大提高图像特征提取效率。
本专利为一种层次化区块的注意力机制卷积核,通过将特征图像进行两次区块划分,每次划分各个区块不重叠,对各个区块进行独立的注意力计算,然后在各个区块内进行注意力卷积操作,使得注意力的计算结果更加精准,提高该区块目标特征的提取效率,减少计算量。第二次区块划分包含第一次区块划分的分割边界处,融合了第一次区块划分时的边界信息,将两次注意力卷积操作结果进行交错叠加,再进行一次卷积操作,作为特征降维融合。该卷积核可以直接代替神经网络中原有的卷积核,连续的层次化区块注意力卷积,可以形成金字塔层级结构,大大提高图像特征提取能力。
目录
1.层次化注意力卷积核结构
2.特征图区块划分
3.区域像素注意力生成模块
4.区块注意力卷积
5.注意力卷积核的使用
层次化区块注意力卷积核
本专利改进了传统卷积核对图像所有像素一视同仁以及对整张图像区域统一进行卷积操作的弊端,在进行卷积之前,对输入特征图进行两次区块划分,每次划分各个区块之间不重叠,对各个区块进行独立的注意力计算,得到输入特征图各个区块对应像素的注意力特征图,注意力特征图和原输入特征图尺寸一致,其每个元素代表输入特征区块中对应位置的像素的注意力值,即该像素在各自特征区块中的重要程度。注意力值为介于0和1之间的数,数值越大,重要性越高。然后在各个区域内分别进行注意力卷积操作,使得注意力的计算结果更加精准,提高该区块中目标特征的提取效率,减少计算量。第二次区块划分包含第一次区块划分的分割边界处,融合了第一次区块划分时的边界信息,将两次层次化区块注意力卷积操作结果进行交错叠加,再进行一次卷积作为特征融合降维处理。
图像特征信息分布在整个图像中,但各个像素点的特征信息和该像素附近像素点的特征信息有较大的关联,和图像较远部分的像素信息关系较小,因此对整张图像整体进行注意力计算以及卷积计算,不仅会得到很多无用信息,也会大大增加计算量,本专利通过区块分割的方式,将关系较紧密的像素划为一个区块,在该区域内独立进行注意力计算和卷积操作,提高了特征信息的提取精度,大大减少了计算量。
层次化注意力卷积核结构
层次化区块注意力卷积核主要包括3个部分,区块划分、区块像素注意力生成模块、区块注意力卷积部分,如图所示。输入特征图使用两种区域划分方式生成两份独立的区块特征图,每份特征经过区域像素注意力生成模块产生和输入特征图同样大小尺寸的区域注意力特征图,输入区域特征图和区域注意力特征图一起送入区块卷积模块,提取区块注意力特征图,将两个区块注意力特征图按通道维度交错叠加,最后使用传统卷积核进行卷积操作作为两种区块注意力特征图的特征融合和降维。
特征图区块划分
针对输入特征图的尺寸,使用合适大小的窗口(比如32×32)将特征图划分为不重合的块状区域图,周围不足部分使用0值填充,比如原特征图尺寸为512×512,使用32×32的窗口,将原特征图划分为16×16块,如图3.2.1所示,每个窗口之间像素不重合。
第二种划分方式使用和第一种划分方式大小相同的窗口(比如32×32),只是窗口中心位置比第一种划分方式向右和向下偏移1/2窗口大小(16×16),使得两种区域划分方式的窗口各自重叠,如图所示。
图中,红色线为第一种划分方式,绿色线为第二种划分方式,周围浅色部分为0值填充。
区域像素注意力生成模块
输入区块特征图先经过一个BatchNorm-Conv-ReLU进行通道压缩为,再经过一个BatchNorm-Conv还原成原尺寸,通过SigMoid函数生成每个像素值的注意力值。通过深度学习,自主学习得到区域特征图每个像素的注意力。每个区块共享同一组注意力卷积核,每个区块进行注意力卷积后的得到的区块注意力特征进行拼接得到最终的区块注意力特征图。
区块注意力卷积
本专利使用3×3区块注意力卷积核,将输入特征进行实例标准化(Instance Normalization),然后和区块注意力特征对应元素相乘,再进行区块卷积,即针对每个区块独立进行卷积操作,每个区块共享同一组卷积核,将各个区块卷积结果做拼接作为最终输出。
注意力卷积核的使用
本专利层次化区块注意力卷积核通过对输入特征图的处理,可以直接替换神经网络中原有的卷积核而无需修改网络结构,注意力特征图通过深度学习自主生成,可在神经网络的训练中同步进行而无需另外计算。