最近翻了几百篇文献,发现CNN领域真的变天了!
以往单纯通过增加深度或调整参数的文章,中稿率一路下叠!而细分方向创新(轻量化设计、多路径结构等)、结合垂直领域的应用却备受青睐。TPAMI、Neurips、ICLR等都有多篇。模型DDUNet更是在点云任务中,实现了参数量狂跌100倍!模型Inter-intraperiod则在心电图检测任务中,准确率近乎100%!
想发论文、想快速涨点的伙伴,可别跑偏了。为方便大家研究的进行,我特地给大家梳理了目前好中稿的思路,主要包括:基于动态卷积的轻量化网络、用全局卷积增强多尺度特征融合、CNN+自监督学习、CNN+多模态数据、CNN+小波变换……每种思路,我还给大家准备了参考论文和源码,共29篇,一起来看。
论文原文+开源代码需要的同学看文末
基于动态卷积的轻量化网络
Full-Frequency Dynamic Convolution: a Physical Frequency-Dependent Convolution for Sound Event Detection
内容:这篇文章提出了一种名为全频动态卷积的新方法,用于声音事件检测。FFDConv通过为每个频率带生成特定的卷积核,直接在结构中实现频率依赖建模,从而赋予二维卷积以频率依赖建模的能力。实验表明,FFDConv不仅优于基线模型,还优于其他全动态方法,在DESED真实验证数据集上,其PSDS1指标比基线提高了6.6%。此外,通过可视化声音事件的特征,发现FFDConv能够有效地提取特定频率带中的连贯特征,与声音事件的语音连续性一致,证明了其出色的频率依赖感知能力。
全局卷积+多尺度特征融合
FCN+: Global Receptive Convolution Makes FCN Great Again
内容:这篇文章提出了一种名为FCN+的新方法,通过引入全局感受野卷积来增强全卷积网络(FCN)在语义分割任务中的性能。GRC通过将卷积滤波器的不同通道分配到不同的空间采样位置,从而在不增加额外可学习参数的情况下,为卷积操作提供全局感受野。实验结果表明,FCN+在PASCAL VOC 2012、Cityscapes和ADE20K数据集上的性能与最先进的方法相当,证明了GRC在整合全局上下文信息以改善像素级表示方面的有效性。
CNN+自监督学习
Self-supervised inter-intra period-aware ECG representation learning for detecting atrial fibrillation
内容:这篇文章提出了一种用于检测心房颤动(AF)的自监督学习方法,通过设计特定的预训练任务来学习心电图(ECG)信号的周期内和周期间特征表示。该方法利用心房颤动患者ECG信号中RR间期的不规则性和P波缺失的医学知识,分别设计了周期间任务来捕捉RR间期的变化,以及周期内任务来学习单周期的稳定形态表示。通过在大规模未标记数据上进行预训练,该方法能够学习到鲁棒的ECG表示,并在少量标记数据上进行微调后,实现了对心房颤动的高精度检测。
CNN+多模态
Interactive Multimodal Fusion with Temporal Modeling
内容:这篇文章介绍了一种用于情感行为分析竞赛(ABAW)中的情绪估计算法,旨在估计情绪的效价和唤起度。该方法通过一个包含视觉分支、两个音频分支和两个跨模态注意力融合模块的多模态框架来整合视觉和音频信息。视觉分支使用预训练的ResNet模型从面部图像中提取空间特征,音频分支则利用预训练的VGG模型从语音信号中提取VGGish和LogMel特征。这些特征通过多尺度时间卷积网络(TCNs)进行时间建模,以捕捉不同时间尺度上的动态变化。
深度可分离卷积优化
DEPTH SEPARABLE ARCHITECTURE FOR SENTINEL-5P SUPER-RESOLUTION
内容:这篇文章介绍了一种针对Sentinel-5P(S5P)卫星数据的超分辨率(SR)模型S5-DSCR,旨在通过深度可分离卷积架构来提高S5P数据的空间分辨率。S5P卫星提供大气测量数据,用于空气质量和气候监测,但由于物理限制,其空间分辨率较低。S5-DSCR模型利用DSC架构,通过捕获通道间的相关性来有效执行空间超分辨率处理。该模型针对S5P数据的八个光谱带中的每一个分别进行训练,以优化每个带的独特特征。实验结果表明,S5-DSCR在大多数光谱带上的性能优于现有方法,能够捕捉到精确分析所需的细节,并为空气质量监测和遥感应用的进步铺平了道路。
小波卷积
WeConvene: Learned Image Compression with Wavelet-Domain Convolution and Entropy Model
内容:这篇文章提出了一种名为WeConvene的新型学习图像压缩框架,通过在卷积层和熵编码中引入离散小波变换(DWT),显著提高了压缩性能。该框架包含两个主要模块:波域卷积(WeConv)和波域通道自回归熵模型(WeChARM)。WeConv模块在选定的卷积层中执行DWT后的卷积操作,并通过逆DWT将数据转换回空间域,以减少频率域的相关性并提高信号在DWT域中的稀疏性。WeChARM模块则在编码器输出的潜在表示上应用DWT,然后进行量化和熵编码,进一步优化编码效率。