一文汇总开源大语言模型,人人都可以拥有自己的ChatGPT

前言

OpenAI发布的ChatGPT火爆全球以来,全球互联网大厂陆续跟进,纷纷宣布了自家的Chat产品,如Google的Bard,百度的文心一言,阿里的通义千问等等。

这些Chat产品背后都是依赖的大语言模型(Large Language Model)。

如果是做一个垂直领域的Chat产品,有2种方案:

  • 直接使用商业化产品,前提是商业化产品支持对模型做fine-tune(微调)。比如OpenAI就支持对它的基础模型做fine-tune来实现个性化的模型。
  • 使用开源的大语言模型,对开源模型做fine-tune来实现垂直领域的Chat产品。

本文重点介绍有较大参考价值的开源大语言模型,方便大家快速找到适合自己应用场景的开源模型。

开源大语言模型

Model作者参数量训练数据量(tokens)训练成本
LLaMAMeta包括 70 亿、130 亿、330 亿、650 亿 4 种参数规模1.4万亿2048个A100 GPU
AlpacaStanford70亿52k条问答指令数据,指令数据来源于OpenAI的API返回结果500美元数据成本+100美元训练成本
VicunaUC Berkeley, CMU, Stanford, UCSD and MBZUAI130亿70k条问答指令数据,指令数据来源于用户分享出来的对话记录300美元
KoalaUC Berkeley130亿500k条问答直录功能数据,指令数据来源于网上公开数据集在公共云计算平台上,预期训练成本不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU,需要6个小时训练完成2个epochs。
Dolly 2.0Databricks120亿15k条问答指令数据,指令数据来源于Databricks员工不到30美元
ChatGLM清华大学KEG 实验室和智谱AI60亿和1300亿共2种参数规模4000亿左右,中文和英文token各2000亿数百万人民币
鹏程·盘古α鹏程实验室、华为26亿、130亿和2000亿共3种参数规模2500亿2048 块昇腾处理器

开源模型有几个注意点:

  • 第一,LLaMA由Meta开源,LLaMA目前仅用于学术、社会公益项目,不能用于商业化项目。

  • 第二,Alpaca, Vicuna, Koala基于LLaMA衍生而来,是在LLaMA大语言模型基础上做了fine-tune得到的,因此训练成本极低,只需用比较少的指令数据做fine-tune即可。这也是为什么这几个模型的训练成本很低,因为站在了LLaMA这个巨人的肩膀上。另外,这几个模型由于本质上还是LLaMA,受限于LLaMA的license限制,同样不能用于商业化目的。

  • Dolly 2.0是在EleutherAI pythia模型衍生而来,指令微调的数据集称为 databricks-dolly-15k,也已开源发布,包含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的问答数据,专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的许可条款,任何人都可以出于任何目的使用、修改或扩展此数据集,包括商业应用。

  • 国内目前开源的主要就是清华主导的ChatGLM,以及华为和鹏程实验室主导的盘古alpha模型。

训练模型

如果拿大语言模型做训练,而不是简单的指令微调,那训练成本非常高昂,比如ChatGPT训练一次的成本在140万美元左右。

最近微软开源了DeepSpeed,可以加速大语言模型的训练,将ChatGPT 1750亿参数模型的训练成本降低到5120美元左右。

其本质是一个开源深度学习训练优化库,可以加速ChatGPT模型的训练,比目前最快的训练方法快大约15倍,如果想自己训练大语言模型的可以参考下。

总结

GPT模型现在真的是日新月异,很多是基于基础模型,结合问答的指令数据对模型做微调而得到的。

现在很多媒体报道的时候喜欢夸大,大家不要看到冒出一个新的开源模型就觉得多么厉害了,绝大部分都是站在巨人肩膀上做了微调而来的。

上面开源大语言模型的表格也会持续更新,欢迎大家关注下面的开源地址。

开源地址

持续更新的开源大语言模型开源地址: ChatGPT模型教程

公众号:coding进阶。

个人网站:Jincheng’s Blog

知乎:无忌

福利

我为大家整理了一份后端开发学习资料礼包,包含编程语言入门到进阶知识(Go、C++、Python)、后端开发技术栈、面试题等。

关注公众号「coding进阶」,发送消息 backend 领取资料礼包,这份资料会不定期更新,加入我觉得有价值的资料。还可以发送消息「进群」,和同行一起交流学习,答疑解惑。

References

  • https://mp.weixin.qq.com/s/7CW4p8RgAF3jYGmgefB_eg
  • https://mp.weixin.qq.com/s/M-ToNk8SABoP2JG0xLUBxQ
  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
知识蒸馏是一种知识增强技术,已经受到越来越多的关注。在大语言模型中,知识蒸馏可以通过将一个大模型(教师模型)的知识传授给一个小模型(学生模型)来提高性能。知识蒸馏的关键问题是如何从教师模型中提取丰富的知识,并将这些知识转移到学生模型的训练中。知识蒸馏系统通常由三个主要部分组成:知识、蒸馏算法和师生架构。\[1\]\[2\] 对于大语言模型的知识蒸馏,有许多挑战需要解决。首先是知识的均等性,即如何确保从教师模型中提取的知识能够平衡地传递给学生模型。其次是蒸馏的类型,不同的蒸馏策略可以选择不同的知识传递方式,例如软标签、相似性约束等。此外,师生体系结构的设计也是一个重要的问题,需要考虑如何构建一个有效的师生模型来实现知识的传递。最后,知识蒸馏的理论基础也是一个研究的重点,研究人员正在探索知识蒸馏的原理和机制。\[2\] 关于知识蒸馏的研究和应用已经有很多论文和技术。如果你对知识蒸馏感兴趣,可以查阅《Knowledge Distillation: A Survey》这篇综述论文,或者参考这个GitHub仓库中的分类论文列表,其中包含了一系列经典的知识蒸馏技术。\[3\] #### 引用[.reference_title] - *1* *2* *3* [万字综述 | 一文读懂知识蒸馏](https://blog.csdn.net/u012347027/article/details/111415197)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值