探索视觉Transformer的纯净之道：Denoising Vision Transformers

最新推荐文章于 2025-04-19 16:33:14 发布

秋或依

最新推荐文章于 2025-04-19 16:33:14 发布

阅读量687

点赞数 18

本文链接：https://blog.csdn.net/gitblog_00035/article/details/142806009

版权

探索视觉Transformer的纯净之道：Denoising Vision Transformers

Denoising-ViT This is the official code release for our work, Denoising Vision Transformers. 项目地址: https://gitcode.com/gh_mirrors/de/Denoising-ViT

项目介绍

在计算机视觉领域，Vision Transformers（ViTs）已经成为一种强大的模型架构，广泛应用于各种任务中。然而，ViTs的一个显著问题是其特征图中存在网格状的伪影，这些伪影会严重影响模型在下游任务中的表现。为了解决这一问题，我们推出了**Denoising Vision Transformers（DVT）**项目，这是一个旨在消除ViTs中伪影的开源项目。

DVT项目由Jiawei Yang、Katie Z Luo、Jiefeng Li、Kilian Q. Weinberger、Yonglong Tian和Yue Wang共同开发，通过深入研究ViTs的输入阶段位置嵌入问题，提出了一种新颖的噪声模型。该模型能够将ViT的输出分解为三个部分：一个无噪声的语义项和两个与像素位置相关的伪影项。通过这种分解，DVT能够提取出无伪影的特征，从而显著提升ViTs在各种任务中的性能。

项目技术分析

DVT的核心技术在于其两阶段的去噪方法：

第一阶段：通过强制跨视图特征一致性，利用神经场对每张图像进行优化，提取出无伪影的特征。
第二阶段：引入一个可学习的去噪器，直接从未经处理的ViT输出中预测无伪影的特征，该去噪器能够泛化到未见过的数据，无需每张图像的优化。

这种两阶段的方法不仅不需要重新训练现有的预训练ViTs，而且可以立即应用于任何基于Transformer的架构。

项目及技术应用场景

DVT的应用场景非常广泛，尤其适用于以下领域：

语义分割：通过消除伪影，提升分割精度。
目标检测：提高检测框的准确性和稳定性。
图像分类：增强分类模型的鲁棒性和准确性。
图像生成：生成更清晰、更真实的图像。

项目特点

无需重新训练：DVT方法不需要重新训练现有的预训练ViTs，节省了大量的时间和计算资源。
通用性强：适用于所有基于Transformer的架构，具有广泛的适用性。
性能显著提升：通过消除伪影，DVT在多个数据集上的性能显著提升，例如在PASCAL VOC数据集上，mIoU提升了3.84%。
易于集成：项目提供了详细的安装和使用说明，用户可以轻松地将DVT集成到现有的工作流程中。

结语

DVT项目为解决Vision Transformers中的伪影问题提供了一个有效的解决方案，不仅提升了模型的性能，还为未来的ViT设计提供了新的思路。我们鼓励广大开发者尝试并使用DVT，共同推动计算机视觉技术的发展。

立即访问项目页面：Denoising Vision Transformers

下载预训练模型：预训练模型下载

参考文献：

@article{yang2024denoising,
  author = {Jiawei Yang and Katie Z Luo and Jiefeng Li and Kilian Q Weinberger and Yonglong Tian and Yue Wang},
  title = {Denoising Vision Transformers},
  journal = {arXiv preprint arXiv:2401.02957},
  year = {2024},
}

Denoising-ViT This is the official code release for our work, Denoising Vision Transformers. 项目地址: https://gitcode.com/gh_mirrors/de/Denoising-ViT

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考