RWKV 社区近期有哪些学术研究进展？

最新推荐文章于 2024-08-16 22:37:09 发布

RWKV元始智能

最新推荐文章于 2024-08-16 22:37:09 发布

阅读量363

点赞数 4

文章标签：人工智能语言模型自然语言处理图像处理

本文链接：https://blog.csdn.net/rwkvteam/article/details/140774938

版权

2024 年 5 月 7 日，我们呼吁大家使用 RWKV-6 替代 Mamba 进行科研。截至 7 月 29 日，来自全球各地的科研团队已经陆续发表了 7 篇基于 RWKV 架构、在各个领域进行深入研究的论文。

新的 RWKV 学术研究主要聚焦于具身智能、图像处理、模型架构三个方面。

机器人/具身智能

Decision-RWKV

**论文名称：**Optimizing Robotic Manipulation with Decision-RWKV: A Recurrent Sequence Modeling Approach for Lifelong Learning
论文链接： https://arxiv.org/abs/2407.16306
仓库地址： https://github.com/ancorasir/DecisionRWKV

南方科技大学的研究团队提出了 Decision-RWKV (DRWKV) 模型，并将经验回放（experience replay）的概念与 Decision-RWKV 模型相结合，设计出适合机器人的终身学习算法。

Decision-RWKV 框架

Decision-RWKV 团队在 OpenAI Gym 环境（使用 D4RL 数据库）和 D’Claw 平台（使用离线数据集）上进行了广泛的实验，以评估 DRWKV 模型在单任务测试和终身学习场景中的性能：

DRWKV-Method_TimeCost

DRWKV-Method_Loss

DRWKV-Result_MemoryCost

实验结果显示：Decision-RWKV 可有效地处理多个子任务。与此同时， Decision-RWKV 相比 DT（Decision-Transformer）显著地减少了推理时间和内存占用，使其成为现实应用（尤其是机器人领域）的更佳选择。

图像处理

Restore-RWKV

论文名称： Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV
论文链接： https://arxiv.org/abs/2407.11087

Restore-RWKV 是首个基于 RWKV 的医学图像修复模型。文章提出了一种循环 WKV（Re-WKV）注意力机制，将双向注意力作为全局感受野的基础，并采用循环注意力来模拟来自不同扫描方向的 2D 依赖关系。

其次，Restore-RWKV 团队还开发了一个全向 token 转移（Omni-Shift）层，该层通过从各个方向和在广泛的上下文范围内转移 token 来增强局部依赖性。

Restore-RWKV 架构

实验结果表明，Restore-RWKV 在各种医学图像修复任务中均具有卓越的性能，包括 MRI 图像超分辨率、CT 图像去噪、PET 图像合成和一体化医学图像修复。

有效感受野

Re-RWKV-Effective Receptive Field

可视化对比实验

Re-RWKV-Visualization

RWKV-SAM

**论文名称：**Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
**论文链接：**https://arxiv.org/abs/2406.19369

“RWKV-SAM”（Segment Anything Model）是基于 RWKV 的图像分段切割方法。

RWKV-SAM 架构

与 Transformer 模型相比，RWKV-SAM（图像分割模型）实现了 2 倍以上的加速，且可以在各种数据集上实现更好的图像分割性能。

此外，RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。

SAM 的基准测试

SAM 方法的可视化比较

VisualRWKV

**论文名称：**VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
**论文链接：**https://arxiv.org/abs/2406.13362

VisualRWKV-6 是基于 RWKV 的可视化语言模型，能够处理各种可视化任务。

VisualRWKV-6 的架构设计是 Data-dependent Recurrence + Sandwich Prompt + Bidirectional Scanning 。

VisualRWKV6

与基于 Transformer 的模型（如 LLaVA-1.5）相比，VisualRWKV 在各种基准测试中实现了具有竞争力的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

RWKV-CLIP

**论文名称：**RWKV-CLIP: A Robust Vision-Language Representation Learner
**论文链接：**https://arxiv.org/abs/2406.06973

RWKV-CLIP 是一个 RWKV 驱动的视觉-语言表示学习模型，该框架在多个下游任务中实现了最先进的性能，包括线性探测、零样本分类，以及零样本图像文本检索。

RWKV-CLIP 架构

实验结果显示：与 ALIP 相比，RWKV-CLIP 在图像文本模态空间中表现出更近的距离，表明具有卓越的跨模态对齐性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PointRWKV

论文名称： PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
论文链接： https://arxiv.org/abs/2405.15214

PointRWKV 项目是一种基于 RWKV 的 3D 点云学习框架，在下游点云任务上性能优于基于 Transformer 和 Mamba 的同类工作，显著节省了约 46% 的 FLOPS。

PointRWKV 架构

大量实验表明，PointRWKV 优于基于 Transformer 和 mamba 的同类产品，同时展示了构建基础 3D 模型的潜在选择。

Qualitative 可视化

混合模型

GoldFinch

**论文名称：**GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression
**论文链接：**https://arxiv.org/abs/2407.12077

GoldFinch 是一种 RWKV/Transformer 混合序列模型，将新的 GOLD transformer 叠加在 Finch（RWKV-6）架构的增强版本之上，有效地在线性时间和空间中生成高度压缩和可重用的 KV-Cache。

GoldFinch 架构