大语言模型（一）OLMo

浅唱书令

已于 2024-05-31 11:15:31 修改

阅读量345

点赞数

分类专栏：人工智能文章标签：自然语言处理大模型

于 2024-05-30 19:28:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/139329628

版权

人工智能专栏收录该内容

47 篇文章 10 订阅 ¥19.90 ¥99.00

订阅专栏

OLMo是AI2发布的开源大语言模型框架，包括训练数据、代码及评估工具。模型基于Transformer Decoder-only架构，引入了SwiGLU激活函数和RoPE旋转位置嵌入，以提高稳定性和性能。此外，还对词汇表进行了优化，以处理个人身份信息。模型架构上，SwiGLU解决了ReLU可能导致的神经元失效问题，RoPE则实现了相对位置编码。

摘要由CSDN通过智能技术生成

一、简介

OLMo 是由AI2 发布的大语言模型以及构建框架，与大多数之前的尝试只发布模型权重和推理代码不同，OLMo 开源了整个框架，包括训练数据、训练代码以及模型评估代码。

OLMo框架包括构建和研究语言模型所需的工具和资源。对于训练和建模，它包括完整的模型权重、训练代码、训练日志、消融实验、以Weights & Biases日志形式的训练指标，以及推理代码。这次发布包括我们的语言模型在7B规模上的四个变体，对应不同的架构、优化器和训练硬件，以及一个1B规模的模型，所有模型都至少训练了2T token。OLMo 作者还在HuggingFace上作为修订版发布了数百个中间检查点。对于数据集构建和分析，它包括用于这些模型的完整训练数据，包括生成训练数据的代码，来自AI2的Dolma 和用于分析预训练数据的WIMBD。对于评估，它包括AI2的Catwalk 用于下游评估和Paloma 用于基于困惑度的评估。

OLMo 也是基于Transformer Decoder-only 架构，并做了如下主要改变：

无偏置项，以提高训练稳定性。
非参数化层归一化，对比参数化层归一化和RMSNorm，OLMo 作者认为这是最安全的选择，也是最快的选择。
SwiGLU激活函数，与LLaMA、PaLM和其他模型一样，使用SwiGLU 代替ReLU。
旋转

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。