重训「羊驼」大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做

QbitAl

于 2023-06-21 12:53:22 发布

阅读量132

点赞数

文章标签：人工智能深度学习机器学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247682808&idx=5&sn=748710e7e68c20d2e31b5e4f304c6cd5&chksm=e8debd8adfa9349c7c25421f4c4612c49e646449d397644a0def9aabb098a8c41bbfb5593366&scene=126&sessionid=0

版权

丰色发自凹非寺
量子位 | 公众号 QbitAI

Meta“羊驼”（LLaMA）的开源可商用复现品OpenLLaMA发布重大更新：

在1T token上训练出来的130亿参数版本现已正式上线。

至此，这一训练量和原版羊驼已完全一致。

与此同时，之前发布的70亿以及30亿参数版本也完成了1T token的训练，并发布PyTorch和JAX权重。

可谓“一家人整整齐齐”。

性能测试显示，OpenLLaMA在多项任务中的表现都与原始LLaMA相当，并且不乏超越的情况。

一个彻底开源且供商用的LLaMA竞品家族就此诞生了。

目前，OpenLLaMA在GitHub上的标星数已近5k。

重训“羊驼”，最香替代品全面开放商用

OpenLLaMA是UC伯克利的博士生Hao Liu发起的项目（Xinyang Geng拥有同等贡献，也是该校博士生）。

它在Together公司发布的RedPajama数据集上训练，该数据集其实也是LLaMA训练集的复制品，一共包含1.2T token。

除了数据集不太一样之外，OpenLLaMA使用了与原始LLaMA完全相同的预处理步骤和训练超参数，包括模型架构、上下文长度、训练步骤、学习率时间表和优化器，可以说是“重训”了一把。

今年5月，该团队率先发布了70亿参数版本，不过当时训练token还是3000亿。

按照计划，如今和原LLaMA训练数据量一致的130亿参数版本和70亿、30亿版本一同发布。

据介绍，130亿版本是与Stability AI合作训练的，后者主要提供计算资源（当初Stable Diffusion也是这么与Stability AI合作）。

和另外两个版本一样，OpenLLaMA-13B也以两种格式发布权重：

一是用于Hugging Face transformer的PyTorch格式。

使用该格式时需要注意先避免使用Hugging Face快速分词器（tokenizer），因为它的自动转换功能有时会给出不正确的tokenization。

所以可以先直接使用LlamaTokenizer class来实现，或者用AutoTokenizer class，将use_fast赋为False。

二是用于EasyLM框架的EasyLM格式。

在此请注意，与原始LLaMA不同，该OpenLLaMA的分词器和权重是完全从头开始训练的，因此不再需要获取原始 LLaMA的这俩信息。

接下来，在训练量已达成一致的情况下，看OpenLLaMA各规模模型的性能表现如何。

在这里，作者使用EleutherAI发布的自回归语言模型few-shot评估框架（lm-evaluation-harness）对两只“羊驼”进行评估，以及还加入了“第三者”：

EleutherAI在Pile数据集上训练的60亿参数模型GPT-J，它的训练token数是5000亿。

需要注意的是，可能是因为不同的评估协议，作者跑出来的LLaMA结果与原始LLaMA略有不同。

以下是结果：

红色小方框为OpenLLaMA超过或者与原LLaMA表现一样的情况。

在红框之外，两者的差距也不大。

而从平均表现来看，OpenLLaMA-7B和LLaMA-7B得分都是0.55，OpenLLaMA-13B和LLaMA-13B也都一样，为0.57，主打一个势均力敌。

与此同时，只有30亿参数的OpenLLaMA平均性能超越60亿参数的GPT-J。

Meta也要发可商用大模型了

特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上，曾多次表达一个意思：

LLaMA-65b就是目前最好的开源基础模型，可惜没能商用。

现在，650亿的商用平替羊驼虽然还没出现，130亿和70亿是已经妥妥安排好了。

不过，也有一则好消息。

就在几天前，据The Information爆料，Meta AI正计划发布一个新的LLM，并且免费供大家商用。

有观点指出，在如今行业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的情况下，Meta这一做法可能会引发连锁反应，并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于OpenLLaMA的所有相关链接：
https://github.com/openlm-research/open_llama
https://huggingface.co/openlm-research/open_llama_13b

本文参考链接还包括：
https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

— 完 —

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「电商零售」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我，记得标星哦～

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
重训「羊驼」大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做

丰色发自凹非寺量子位 | 公众号 QbitAIMeta“羊驼”（LLaMA）的开源可商用复现品OpenLLaMA发布重大更新：在1T token上训练出来的130亿参数版本现已正式上线。至此，这一训练量和原版羊驼已完全一致。与此同时，之前发布的70亿以及30亿参数版本也完成了1T token的训练，并发布PyTorch和JAX权重。可谓“一家人整整齐齐”。性能测试显示，OpenLLaMA在多项...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。