小周带你读论文-1之“浪潮Yuan2 有哪些创新“

本文是小周带你读论文系列的第一篇,主要探讨了浪潮Yuan2在Transformer结构的改进——局部过滤注意力(LFA)和分布式训练时间预测法。LFA通过预处理QKV输入,引入局部依赖。此外,文章还介绍了非均匀PP(Non-uniform PP)解决显存分配不均的问题。尽管存在争议,Yuan2的创新对于理解LLM优化具有参考价值。
摘要由CSDN通过智能技术生成

 新开一个系列连载,小周带你读论文,会不定期的更新各种新的,甚至老的有价值的论文,当然您有时间自己读最好了,如果自己读嫌麻烦,可以来看我这个的总结

      老规矩,1,2,3 上链接...

IEIT-Yuan/Yuan-2.0: Yuan 2.0 Large Language Model (github.com)

      Yuan2是浪潮的刚发布的LLM是基于Yuan1改的(这里吐槽一下浪潮,Yuan1的pretrain数据原来是公开下载的有1T多的语料很大一部分中文比例,现在给关闭了

Image

       Yuan2这论文写的还是有点意思的,受限于算力要求,很多事实性的实验我没法做证明或者证伪,那就先看看文中的一些理论创新

1- 魔改Transformer(LFA):

Image

       为了好理解我沾个Llama2的结构作为对比

Image

      几乎一眼就可以看出来变化,他把multiheader attention层给改了(其实要严格一点说也不算全改,只是前面加东西了)!Transformer玩的啥呢,其实就是玩attetion这层呢,他为什么要把核心内容给改了呢?

      下面是论文里给的说法:

Attention, as a basic building block in LLMs, has showed great success across NLP tasks [9,10]. When a sequence is fed in to a language model, attention mechanism learns the weights of each pair of tokens to build the dependencies across the entire input sequence. The mechanism equally treats a token in neighbourhood and that in a distance. However, in natural language, the dependencies of words in neighbourhood are often stronger than the words faraway. The interconnection learned by Attention is global without any prior knowledge of local d

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值