RWKV:一种鱼和熊掌兼得的线性transformer模型

u013250861

已于 2024-02-14 14:00:01 修改

阅读量874

点赞数 1

分类专栏： # LLM/Transformer 文章标签： transformer 深度学习人工智能

于 2023-06-14 19:48:06 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/131214695

版权

LLM/Transformer 专栏收录该内容

40 篇文章 13 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了RWKV模型，它改进了Transformer，解决了self-attention的二次依赖问题，实现了线性复杂度和良好性能的平衡。通过Position Encoding和TimeMix替代self-attention，ChannelMix替换FFN，RWKV在保持高效的同时，还能处理长文本，且在ai写小说等应用场景中表现出更好的流畅性和训练速度。

摘要由CSDN通过智能技术生成

众所周知，现在transformer及其变种是NLP和CV领域已经杀疯了。但其中最核心的self-attention机制因为其O(N2)的时间复杂度（二次依赖问题）被诟病。

在不改变transformer block这个整体架构的前提下，现在学术界解决二次依赖问题的主要是两个思路。一种是实现self-attention的线性化。这方面的工作是很多的，比如Performer[5]、Reformer[6]、Linformer[7]、Nyströmformer[9]、AdaMRA[10]等。关于这部分工作更多的内容大家可以在苏剑林的博客中了解到[8].虽然关于线性attention的工作很多，但参考AdaMRA[10]论文的图。只有Nyströmformer[9]和AdaMRA[10]相较于Transformer能获得速度和效果的双重提升，其他的大多需要付出效果的代价才能获取一定的速度提升。但就是这哥俩由于用了平均池化作为特征聚类，因此无法mask未来信息从而丧失了自回归的能力。因此通过替换线性attention从而提升transformer速度这一思路是必须付出代价的。

另一种思路将self-attention换成其他线性复杂度的部件。比如前段时间谷歌发现用膨胀卷积取代self-attention也能取到不错的效果[1]。而在CV领域杀疯的MLP-Mixer[2]，兼具CV和NLP能力的gMLP、aMLP,[3]MLP-Mixer的NLP版本Synthesizer[4]。但都有或多或少的缺点，就比如Synthesizer和gMLP在NLP领域相较于self-attention还是差了点的。而aMLP虽然效果好了吧，但其实还是要用到self-attention，提速的目的还是没达到。不过今年

了解本专栏

超级会员免费看

u013250861

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
RWKV:一种鱼和熊掌兼得的线性transformer模型

本文介绍了一种鱼和熊掌兼得的模型。既能和AFT一样兼具通用性和高效，distance位置编码的设计使得模型也具备面对超长文本的能力。实际实验效果可以去看原文的内容，本文只对其结构进行介绍。但总体而言，笔者测试过基于GPT的ai写小说和基于RWKV的ai写小说。相比较而言，RWKV的写出来的文章会更流畅，并且在训练时收敛速度页更快。参考文献。
复制链接

扫一扫

专栏目录