ResNet与Transformer的完美融合,低耗高效,准确率直逼99.13%!

2025深度学习发论文&模型涨点之——ResNet+Transformer

ResNet和Transformer是深度学习领域中的两个非常重要的架构。ResNet(残差网络)以其深层架构和残差连接而闻名,能够有效提取图像的局部特征。而Transformer则以其自注意力机制为核心,能够捕捉序列中的长距离依赖关系,尤其在自然语言处理领域取得了巨大成功。将这两种架构结合起来,旨在充分利用CNN的局部特征提取能力和Transformer的全局建模能力,以期在复杂视觉任务中取得更好的性能。

ResNet和Transformer的结合可以在多个领域提供强大的性能,尤其是在图像分类、目标检测、语义分割等任务中。通过结合这两种架构,模型不仅能够提取图像的局部细节特征,而且能够从全局角度理解图像的语义信息,从而更准确地进行分类和识别。

论文精选

论文1:

A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases

CNN、ResNet和视觉变换器在胸部疾病多分类中的比较研究

方法

  • Convolutional Neural Networks (CNNs):使用Keras Sequential模型构建,包含多个卷积层、最大池化层、Flatten层、Dense层,用于从胸部X光图像中提取特征。

  • Residual Networks (ResNet):使用跳跃连接来训练非常深的网络,解决传统深度CNNs中可能出现的梯度消失问题。

  • Vision Transformers (ViTs):利用变换器架构处理224×224像素的图像,将图像分割成32×32的patches作为tokens,然后通过多头注意力机制和多层感知器进行分类。

图片

创新点

  • 预训练ViT模型:通过在ImageNet上预训练的ViT模型在多标签分类任务中超越了CNN和ResNet,突出了其在胸部X光图像中诊断各种肺部疾病潜力。

  • 多标签分类:研究评估了这些模型在14种不同疾病上的多标签分类性能,这对于医学图像分析中的疾病分类具有重要意义。

  • 模型比较:提供了CNN、ResNet和ViT在胸部疾病多分类任务中的性能比较,为未来的研究和应用提供了参考。

图片

论文2:

A Three-Dimensional ResNet and Transformer-Based Approach to Anomaly Detection in Multivariate Temporal–Spatial Data

基于三维ResNet和变换器的多变量时空间数据异常检测方法

方法

  • 三维映射:将多变量时间序列数据映射到三维空间,以捕获时间序列数据的时间-空间相关性。

  • 时间序列嵌入:通过四个堆叠的三维卷积层来学习时间序列的低维嵌入,捕获时间序列的顺序信息和时间序列维度之间的关系。

  • 注意力学习:使用变换器编码器来学习时间序列的注意力权重,以识别异常行为。

图片

创新点

  • 同时考虑时间序列的顺序信息和维度间关系:提出了一种新的方法,可以同时提取时间序列的时间和空间特征,而不是分开处理。

  • 应用注意力机制到三维卷积神经网络:提出了一种新的方法将注意力机制应用于三维卷积神经网络,提高了异常检测的准确性。

  • 自动选择时间窗口大小:提出了一种自动选择时间窗口大小的方法,称为TDRT变体,这在不同数据集上提供了显著的性能优势。

图片


论文3:

Combining ResNet and Transformer for Chinese Grammatical Error Diagnosis

结合ResNet和Transformer进行中文语法错误诊断

方法

  • 错误检测:系统基于多层双向Transformer编码器构建,并将ResNet集成到编码器中以提高性能。

  • 逐步集成选择:探索从模型库中逐步集成选择,以提高单一模型的性能。

  • 错误纠正:设计了两个模型分别推荐S型(词选择错误)和M型(遗漏词错误)错误的纠正。

  • RoBERTa和n-gram语言模型:用于S型错误的纠正,结合了预训练的RoBERTa模型和n-gram语言模型。

  • 预训练掩码语言模型和统计语言模型:用于M型错误的纠正,结合了预训练的掩码语言模型和统计语言模型。

图片

创新点

  • ResNet与Transformer的结合:通过将ResNet集成到Transformer编码器中,提高了错误检测的性能。

  • 逐步集成选择:提出了一种从模型库中逐步选择模型的方法,以提高模型在错误检测中的性能。

  • 针对性的错误纠正模型:为S型和M型错误分别设计了纠正模型,提高了纠正的准确性和效率。

  • RoBERTa和n-gram的结合使用:在S型错误的纠正中,结合了RoBERTa模型和n-gram语言模型,提高了纠正的准确性。

  • 预训练模型的创新应用:在M型错误的纠正中,创新性地结合了预训练掩码语言模型和统计语言模型,以生成可能的纠正结果。

图片


论文4:

Comparing the Robustness of ResNet, Swin-Transformer, and MLP-Mixer under Unique Distribution Shifts in Fundus Images

比较ResNet、Swin-Transformer和MLP-Mixer在眼底图像独特分布偏移下的鲁棒性

方法

  • EyePACS数据集的使用:使用EyePACS数据集进行糖尿病视网膜病变(DR)诊断。

  • 引入眼底图像特定噪声:在数据集中引入眼底图像特有的噪声,评估模型在分布偏移下的性能。

  • ROC-AUC和ECE sweep评估:使用ROC-AUC评估模型的判别能力,使用ECE sweep评估模型的校准能力。

  • 分布偏移的模拟:通过引入三种类型的噪声模拟现实世界中的分布偏移。

图片

创新点

  • 针对医学图像的数据集研究:专注于使用医学图像数据集(EyePACS)来研究模型在分布偏移下的性能,填补了自然图像数据集研究的空白。

  • 模型鲁棒性的比较:比较了ResNet、Swin-Transformer和MLP-Mixer在眼底图像独特分布偏移下的鲁棒性,为医学图像诊断提供了重要的参考。

  • 特定噪声的引入:引入了特定于眼底图像的噪声,更真实地模拟了现实世界中的分布偏移情况。

  • 校准能力的评估:使用ECE sweep而不是传统的ECE来评估模型的校准能力,提供了更低偏差的校准误差估计。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值