【论文速看】DL最新进展202411011-图像超分、Transformer

【图像超分】

[ICML 2024] See More Details: Efficient Image Super-Resolution by Experts Mining

论文链接:https://arxiv.org/pdf/2402.03412

代码链接:https://github.com/eduardzamfir/seemoredetails

从低分辨率(LR)输入重建高分辨率(HR)图像在图像超分辨率(SR)领域是一项重大挑战。尽管最近的方法已经展示了为各种目标定制复杂操作的有效性,但简单地堆叠这些不同的操作可能导致巨大的计算负担,从而影响其实际应用价值。为了应对这一挑战,文中引入了SeemoRe,这是一种采用专家挖掘技术的高效SR模型。所提方法策略性地在不同层次上整合专家知识,采用了一种协作方法。在宏观层面,专家处理按等级和空间分布的信息特征,提供了全面的理解。随后,该模型通过利用一系列低秩专家的混合体,深入探讨秩选择的细微差别。通过借鉴专门从事对准确SR至关重要的不同关键因素的专家,所提模型更有利于揭示复杂的内部特征细节。这种协作方法让人联想到“看得更多”的概念,使所提模型能够在高效设置下以最小的计算成本实现最佳性能

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
实验结果

在这里插入图片描述


【Transformer】

[NeurIPS 2024 视频Transformer] Don’t Look Twice: Faster Video Transformers with Run-Length Tokenization

论文链接:https://arxiv.org/pdf/2411.05222

代码链接:https://rccchoudhury.github.io/rlt/

由于输入标记的数量极其庞大,Transformer在视频训练上速度较慢,尽管许多视频标记会随时间重复出现。现有的去除这些无信息量标记的方法要么有显著的开销,抵消了任何加速效果,要么需要针对不同数据集和示例进行调整。我们提出了一种基于游程编码(run-length encoding)用于数据压缩的简单方法——运行长度标记化(Run-Length Tokenization,RLT),以加快视频Transformer的速度。RLT高效地找到并移除模型推理前随时间重复出现的补丁片段,然后用一个单独的补丁和一个位置编码来替换它们,以表示结果标记的新长度。我们的方法具有内容感知性,无需针对不同数据集进行调整,并且快速,只带来微小的开销。RLT在训练中带来了显著的速度提升,将视频Transformer微调的墙钟时间减少了30%,同时保持了基线模型的性能。RLT还可以在无需任何训练的情况下工作,仅用0.1%的准确性下降就将模型吞吐量提高了35%。RLT以每秒30帧的速度将训练加速超过100%,并且在较长的视频数据集上,可以将标记数量减少多达80%。

在这里插入图片描述

在这里插入图片描述
实验结果
在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IRevers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值