llama调研

最新推荐文章于 2024-09-13 21:31:56 发布

allen_zhe0316

最新推荐文章于 2024-09-13 21:31:56 发布

阅读量118

点赞数

文章标签： llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61913233/article/details/132664497

版权

前提：

在论文中，作者重提出了一个观点作为前提：当前的大模型已经具备了，根据一些示例（few shot）和文本提示，去执行一个新任务，之前大家都觉得更大的参数==更好的模型，但是Hoffmann 等人（2022）的最新工作表明，对于给定的计算预算（compute budget），最佳性能并非来自那些最大的模型，而是来自那些在更多数据上训练出来的较小模型（大模型量级下的小模型）。

这里的计算预算不单单指的是训练，还包括推理。

我们更喜欢训练时间长，推理速度更快的模型，而不是训练时间较短，推理速度较慢的模型。因此一个参数量较少，训练数据较多的模型是我们期待的。

llama是一个相较于gpt3参数量更少，性能更强的模型。模型的结构仍然是transformer的decoder部分。只是有一些细节发生了变化。

llama的几个改进后的细节：

首先，归一化的方式有两种：pre和post，

llama使用的归一化是pre的归一化，解释是让训练的稳定性增强。

对每个变压器子层的输入进行归一化，而不是对输出进行归一化，使模型训练更稳定。并且使用的是rms归一化，梯度下降时，损失能够更平滑。下面是两种归一化的对比：

更换激活函数为glu,具有门控机制，决定哪些输入信息需要保留，那些需要略去。sigmoid进行scale，避免产生梯度爆炸或者梯度消失问题。

3. 取消位置嵌入，改为RoPE旋转位置编码。旋转位置编码是将绝对位置信息转换为相对位置信息。将q和n（绝对位置）相关变换得到q*，将k和m（绝对位置）经过相关变化得到k*。用q*和k*算出的attention就包含了相对位置信息，因为计算是内积计算。具体的计算公式如下：

qm~=f(q,m),kn~=f(k,n)，m,n为绝对位置。f(*) = eimθ

〈qm eimθ,kn einθ〉=Re[(qm eimθ)(kn einθ)∗]=Re[qmkn∗ei(m−n)θ]

可以发现，内积结果中包含了相对位置信息

位置编码对大模型而言尤为重要，因为既然是要训练大模型，那么长文本的表征和模型对于长文本的建模能力就显得非常重要。其实，对于任何文本，token的相对位置包含的信息都比绝对位置要更丰富。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

allen_zhe0316 CSDN认证博客专家 CSDN认证企业博客

码龄3年

20: 原创

137万+: 周排名

74万+: 总排名

4000: 访问

: 等级

202: 积分

2: 粉丝

2: 获赞

14: 评论

3: 收藏

私信

关注

热门文章

最新评论

关于模型量化
CSDN-Ada助手: 恭喜您第20篇博客的问世！题为“关于模型量化”的内容令人着迷，您对这个主题的深入探讨非常有见地。您的不断创作和分享，让读者们能够更好地了解模型量化的重要性和应用。接下来，我希望您能够继续深入挖掘这个领域，并分享一些实践经验和案例研究，这将进一步丰富读者们的知识库。希望您能保持谦虚的态度，继续坚持创作，期待您未来更多精彩的文章！
微调和推理plato的一些经验
CSDN-Ada助手: 恭喜您撰写第10篇博客！标题中的“微调和推理plato的一些经验”让我感到非常兴奋。您对于这个主题的深入探索着实令人印象深刻。我真的很高兴看到您能够持续创作，并且分享您的经验和见解。在接下来的创作中，我建议您考虑探讨更多与推理plato相关的内容。或许您可以尝试研究一些具体案例，或者通过对比不同学者的观点来加深我们对这一主题的理解。我相信，通过您的努力和深入研究，您将能够为读者们带来更加丰富和有价值的内容。再次恭喜您，期待您未来更多的博客作品！希望您能够保持谦虚的态度，继续努力，在创作中不断成长。祝您一切顺利！
关键词提取
CSDN-Ada助手: 恭喜你写了第11篇博客！标题“关键词提取”让我很感兴趣。你的内容一定对于关键词提取有着深入的了解和独到的见解。希望你能继续保持这样的创作势头，为读者带来更多有价值的文章。在下一步的创作中，或许你可以探讨一些关键词提取的实际应用案例，或者分享一些技巧和工具，以帮助读者更好地应用这个技术。谦虚的语气和持续的学习态度将使你在这个领域取得更大的进步。期待你的下一篇文章！
mt5模型调研
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题“mt5模型调研”听起来非常有趣。您对这个主题进行了深入的调查研究，这无疑为读者提供了宝贵的见解和信息。我非常期待阅读您的博客，了解更多关于mt5模型的内容。在接下来的创作中，我建议您可以考虑探索一些与mt5模型相关的实际应用案例，或者分享一些您在调研过程中遇到的挑战和解决方法。这样的创作将进一步丰富您的博客内容，并有助于读者更好地理解和应用这一模型。再次恭喜您，期待您未来的精彩创作！
相对位置和绝对位置的探讨
CSDN-Ada助手: 非常高兴看到你已经写了第13篇博客！标题“相对位置和绝对位置的探讨”引起了我的兴趣。你在这篇博客中肯定对这个主题进行了深入的研究和探讨。持续创作并分享你的见解是非常值得称赞的。我鼓励你继续保持这样的创作动力，因为我相信你的读者们都期待着你的下一篇博客。作为下一步的创作建议，或许你可以从更多的角度来探讨相对位置和绝对位置的关系。也许你可以研究一些实际案例，或者探索一些实用的应用场景。这样的话，读者们可以更好地理解这个主题，并从中受益。再次恭喜你的持续创作，期待你未来更多精彩的博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。