SAM、CLIP...最近有哪些基于 RWKV 的多模态等研究?【第二期】

大家好,我们整理了近期 RWKV 生态中新增的一些多模态工作,包含:RWKV-SAM(图像分割模型)、RWKV-CLIP(视觉语言表示学习)、point-RWKV(3D 点云学习框架)……

RWKV-SAM

论文设计了基于 RWKV 的图像分段切割方法“RWKV-SAM”(Segment Anything Model)。

下图为 RWKV-SAM 架构:

RWKV-SAM 架构

与 Transformer 模型相比,RWKV-SAM 实现了 2 倍以上的加速,且可以在各种数据集上实现更好的图像分割性能。

此外,RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。

Comparisons-between-SAM

RWKV-CLIP

RWKV-CLIP (Contrastive Language-Image Pre-training)是一个 RWKV 驱动的视觉语言表示学习模型,该框架可以利用大型语言模型(LLMs)来合成和细化基于网络的文本、合成标题和检测标签的内容。

RWKV-CLIP 架构如图:

RWKV-CLIP 架构

论文结果显示:与 ALIP 相比,RWKV-CLIP 在图像文本模态空间中表现出更近的距离,表明具有卓越的跨模态对齐性能。

rwkv-clip-text-image

PointRWKV

PointRWKV 项目是一种基于 RWKV 的 3D 点云学习框架,在下游点云任务上性能优于基于 Transformer 和 Mamba 的同类工作,显著节省了约 46% 的 FLOPS。

下图为 PointRWKV 架构:

PointRWKV 架构

SDiT

论文提出了 Spiking Diffusion Transformer (SDiT - 基于 Transformer 的新型 SNN 扩散模型架构),但采用 RWKV 作为 Transformer
自注意力机制的替代。

通过将 RWKV 有效地与 SNN 集成,SDiT 方法提高了重建图像的质量。

SDiT-architecture

和基于 Transformer 的 ANN 实现 (DiT) 相比,基于 RWKV 的 SDiT 方法拥有更小的参数和更低的乘法累加 (MAC) ,充分展示了低功耗 SNN 的优势。

SDit-and-Dit

VisualRWKV-6

VisualRWKV 是 RWKV 语言模型的视觉增强版本,使 RWKV 模型能够处理各种视觉任务。

VisualRWKV-6 的架构设计是 Data-dependent Recurrence + Sandwich Prompt + Bidirectional Scanning 。

VisualRWKV-6

大量实验表明,与基于 Transformer 的模型(如 LLaVA-1.5)相比,VisualRWKV 在各种基准测试中实现了具有竞争力的性能。

VisualRWKV-6-VS-LLaVA


以上是近期的 RWKV 多模态研究。更早之前的 RWKV 多模态工作,请参考我们的第一期统计:

欢迎大家使用 RWKV 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。

如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在“RWKV元始智能”微信公众号留言您的联系方式,或发送邮件到“contact@rwkvos.com”。)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值