RWKV:在Transformer时代重新定义循环神经网络
Transformer已经彻底改变了几乎所有自然语言处理(NLP)任务,但其在序列长度上的内存和计算复杂度呈二次方增长。相比之下,循环神经网络(RNN)在内存和计算需求上呈线性扩展,但由于并行化和可扩展性的限制,难以达到Transformer相同的性能。我们提出了一种新颖的模型架构,即Receptance Weighted Key Value(RWKV),将Transformer的高效可并行训练与RNN的高效推理相结合。
原创
2023-06-15 15:37:24 ·
941 阅读 ·
1 评论