【论文速看】DL最新进展202411011-图像超分、Transformer_see more details: efficient image super-resolution-CSDN博客

本文链接：https://blog.csdn.net/qq_40734883/article/details/143696684

【图像超分】

[ICML 2024] See More Details: Efficient Image Super-Resolution by Experts Mining

代码链接：https://github.com/eduardzamfir/seemoredetails

从低分辨率（LR）输入重建高分辨率（HR）图像在图像超分辨率（SR）领域是一项重大挑战。尽管最近的方法已经展示了为各种目标定制复杂操作的有效性，但简单地堆叠这些不同的操作可能导致巨大的计算负担，从而影响其实际应用价值。为了应对这一挑战，文中引入了SeemoRe，这是一种采用专家挖掘技术的高效SR模型。所提方法策略性地在不同层次上整合专家知识，采用了一种协作方法。在宏观层面，专家处理按等级和空间分布的信息特征，提供了全面的理解。随后，该模型通过利用一系列低秩专家的混合体，深入探讨秩选择的细微差别。通过借鉴专门从事对准确SR至关重要的不同关键因素的专家，所提模型更有利于揭示复杂的内部特征细节。这种协作方法让人联想到“看得更多”的概念，使所提模型能够在高效设置下以最小的计算成本实现最佳性能。

在这里插入图片描述

在这里插入图片描述

实验结果

在这里插入图片描述

【Transformer】

[NeurIPS 2024 视频Transformer] Don’t Look Twice: Faster Video Transformers with Run-Length Tokenization

论文链接：https://arxiv.org/pdf/2411.05222

代码链接：https://rccchoudhury.github.io/rlt/

由于输入标记的数量极其庞大，Transformer在视频训练上速度较慢，尽管许多视频标记会随时间重复出现。现有的去除这些无信息量标记的方法要么有显著的开销，抵消了任何加速效果，要么需要针对不同数据集和示例进行调整。我们提出了一种基于游程编码（run-length encoding）用于数据压缩的简单方法——运行长度标记化（Run-Length Tokenization，RLT），以加快视频Transformer的速度。RLT高效地找到并移除模型推理前随时间重复出现的补丁片段，然后用一个单独的补丁和一个位置编码来替换它们，以表示结果标记的新长度。我们的方法具有内容感知性，无需针对不同数据集进行调整，并且快速，只带来微小的开销。RLT在训练中带来了显著的速度提升，将视频Transformer微调的墙钟时间减少了30%，同时保持了基线模型的性能。RLT还可以在无需任何训练的情况下工作，仅用0.1%的准确性下降就将模型吞吐量提高了35%。RLT以每秒30帧的速度将训练加速超过100%，并且在较长的视频数据集上，可以将标记数量减少多达80%。

在这里插入图片描述