问题:仅使用二维CNN可能会导致缺失通道关系信息,而仅使用三维CNN可能会使模型变得非常复杂。此外,现有的网络模型对提取光谱空间相关信息重视不够
创新点: (1)三维二维卷积协同使用
(2)利用NonLocalBlock和Conv_Block分别强调空间相关特征和提取高级抽象相关信息
(3)为了充分利用不同层次间互补的光谱空间特征,CACNN采用了多层特征融合策略。得到的判别特征映射有助于实现预期的分类结果
整体网络架构:
输入假设一开始是h,w,d,经过pac处理之后变成h,w,b(光谱减少),然后并行的结构,2d/3d卷积卷四次,有四个结果,这边3d的结果reshape之后和2d的结合在一起,是直接拼接在一起,然后过注意力模块。
接着分别看看两个注意力模块
具体来说这里是一种注意力机制,Non-local的核心思想就是上面说的,某一像素点处的响应是其他所有点处的特征权重和。具体解释在这里计算机视觉中的Non-local-Block以及其他注意力机制 - 知乎 (zhihu.com)
可以看到是一样的
然后叠加的是一个残差结构