ResNet与Transformer的完美融合，低耗高效，准确率直逼99.13%！

Ai墨芯111

于 2025-01-19 17:00:00 发布

阅读量1.1k

点赞数 21

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/Aimoxin111/article/details/145210988

版权

2025深度学习发论文&模型涨点之——ResNet+Transformer

ResNet和Transformer是深度学习领域中的两个非常重要的架构。ResNet（残差网络）以其深层架构和残差连接而闻名，能够有效提取图像的局部特征。而Transformer则以其自注意力机制为核心，能够捕捉序列中的长距离依赖关系，尤其在自然语言处理领域取得了巨大成功。将这两种架构结合起来，旨在充分利用CNN的局部特征提取能力和Transformer的全局建模能力，以期在复杂视觉任务中取得更好的性能。

ResNet和Transformer的结合可以在多个领域提供强大的性能，尤其是在图像分类、目标检测、语义分割等任务中。通过结合这两种架构，模型不仅能够提取图像的局部细节特征，而且能够从全局角度理解图像的语义信息，从而更准确地进行分类和识别。

论文精选

论文1：

A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases

CNN、ResNet和视觉变换器在胸部疾病多分类中的比较研究

方法

Convolutional Neural Networks (CNNs)：使用Keras Sequential模型构建，包含多个卷积层、最大池化层、Flatten层、Dense层，用于从胸部X光图像中提取特征。
Residual Networks (ResNet)：使用跳跃连接来训练非常深的网络，解决传统深度CNNs中可能出现的梯度消失问题。
Vision Transformers (ViTs)：利用变换器架构处理224×224像素的图像，将图像分割成32×32的patches作为tokens，然后通过多头注意力机制和多层感知器进行分类。

创新点

预训练ViT模型：通过在ImageNet上预训练的ViT模型在多标签分类任务中超越了CNN和ResNet，突出了其在胸部X光图像中诊断各种肺部疾病潜力。
多标签分类：研究评估了这些模型在14种不同疾病上的多标签分类性能，这对于医学图像分析中的疾病分类具有重要意义。
模型比较：提供了CNN、ResNet和ViT在胸部疾病多分类任务中的性能比较，为未来的研究和应用提供了参考。

论文2：

A Three-Dimensional ResNet and Transformer-Based Approach to Anomaly Detection in Multivariate Temporal–Spatial Data

基于三维ResNet和变换器的多变量时空间数据异常检测方法

方法

三维映射：将多变量时间序列数据映射到三维空间，以捕获时间序列数据的时间-空间相关性。
时间序列嵌入：通过四个堆叠的三维卷积层来学习时间序列的低维嵌入，捕获时间序列的顺序信息和时间序列维度之间的关系。
注意力学习：使用变换器编码器来学习时间序列的注意力权重，以识别异常行为。

创新点

同时考虑时间序列的顺序信息和维度间关系：提出了一种新的方法，可以同时提取时间序列的时间和空间特征，而不是分开处理。
应用注意力机制到三维卷积神经网络：提出了一种新的方法将注意力机制应用于三维卷积神经网络，提高了异常检测的准确性。
自动选择时间窗口大小：提出了一种自动选择时间窗口大小的方法，称为TDRT变体，这在不同数据集上提供了显著的性能优势。

论文3：

Combining ResNet and Transformer for Chinese Grammatical Error Diagnosis

结合ResNet和Transformer进行中文语法错误诊断

方法

错误检测：系统基于多层双向Transformer编码器构建，并将ResNet集成到编码器中以提高性能。
逐步集成选择：探索从模型库中逐步集成选择，以提高单一模型的性能。
错误纠正：设计了两个模型分别推荐S型（词选择错误）和M型（遗漏词错误）错误的纠正。
RoBERTa和n-gram语言模型：用于S型错误的纠正，结合了预训练的RoBERTa模型和n-gram语言模型。
预训练掩码语言模型和统计语言模型：用于M型错误的纠正，结合了预训练的掩码语言模型和统计语言模型。

创新点

ResNet与Transformer的结合：通过将ResNet集成到Transformer编码器中，提高了错误检测的性能。
逐步集成选择：提出了一种从模型库中逐步选择模型的方法，以提高模型在错误检测中的性能。
针对性的错误纠正模型：为S型和M型错误分别设计了纠正模型，提高了纠正的准确性和效率。
RoBERTa和n-gram的结合使用：在S型错误的纠正中，结合了RoBERTa模型和n-gram语言模型，提高了纠正的准确性。
预训练模型的创新应用：在M型错误的纠正中，创新性地结合了预训练掩码语言模型和统计语言模型，以生成可能的纠正结果。

论文4：

Comparing the Robustness of ResNet, Swin-Transformer, and MLP-Mixer under Unique Distribution Shifts in Fundus Images

比较ResNet、Swin-Transformer和MLP-Mixer在眼底图像独特分布偏移下的鲁棒性

方法

EyePACS数据集的使用：使用EyePACS数据集进行糖尿病视网膜病变（DR）诊断。
引入眼底图像特定噪声：在数据集中引入眼底图像特有的噪声，评估模型在分布偏移下的性能。
ROC-AUC和ECE sweep评估：使用ROC-AUC评估模型的判别能力，使用ECE sweep评估模型的校准能力。
分布偏移的模拟：通过引入三种类型的噪声模拟现实世界中的分布偏移。

创新点

针对医学图像的数据集研究：专注于使用医学图像数据集（EyePACS）来研究模型在分布偏移下的性能，填补了自然图像数据集研究的空白。
模型鲁棒性的比较：比较了ResNet、Swin-Transformer和MLP-Mixer在眼底图像独特分布偏移下的鲁棒性，为医学图像诊断提供了重要的参考。
特定噪声的引入：引入了特定于眼底图像的噪声，更真实地模拟了现实世界中的分布偏移情况。
校准能力的评估：使用ECE sweep而不是传统的ECE来评估模型的校准能力，提供了更低偏差的校准误差估计。