最接近open ai 的开源大语言模型

jinke2010_happy

已于 2023-08-23 14:39:07 修改

阅读量244

点赞数

文章标签：人工智能语言模型自然语言处理

于 2023-08-23 14:36:29 首次发布

本文链接：https://blog.csdn.net/jinke2010_happy/article/details/132451779

版权

文章目录

前言
一、dqnapi是什么？
二、项目测试
- 1.本地部署
- 2.在线测试
总结

前言

`
毋庸置疑，Llama中文社区率先完成了国内首个真正意义上的中文版Llama2-13B大模型，对Llama2在中文能力方面进行了重要优化和提升。这一成果标志着国内大模型的新时代的开启。

Llama2作为当前全球范围内最强的开源大模型，在中文能力方面的不足亟待解决。Meta公司于7月19日凌晨开源了第一代LLaMA的升级版：Llama2，其中包括7B、13B和70B三种规模的模型，并且可免费商用。Llama2基于2万亿token的数据进行预训练，并通过在100万人类标记数据上微调来构建对话模型。在推理、编程、对话以及知识测试等多种基准测试中，Llama2的效果明显优于MPT、Falcon以及第一代LLaMA等开源大语言模型，也首次达到商用GPT-3.5的水平，在众多开源模型中独树一帜。

然而，尽管Llama2的训练数据相比第一代扩大了一倍，但中文预训练数据的比例仍然很少，仅占总量的0.13%，导致原版Llama2在中文能力方面相对较弱。

为了改善这一情况，国内顶尖高校的大模型博士团队创办了Llama中文社区，并开始了Llama2中文大模型的训练之旅。他们将基于大规模中文数据对Llama2进行优化，以提升其在中文能力方面的表现。通过这一努力，希望使Llama2具备更好的中文应用能力

一、dqnapi是什么？

DQNAPI 是一个综合平台，旨在将程序、接口、数据和模型等资源集成到一个统一的环境中。我们为每个资源编写了一个独特的数字标识符，即 DQNAPI 号，用户可以通过这个号码快速查找并访问所需资源。

通过 DQNAPI，您可以方便地注册和管理您使用过的各种资源。无论是程序代码、API 接口、数据集还是模型，只要您注册了相应的 DQNAPI 号，您就可以轻松地回顾和再次使用这些资源。这种整合和统一的方式极大地简化了资源的查找和获取过程，为所有用户提供了更加便捷和高效的体验。

在 DQNAPI 官网，您可以浏览各类资源的详细介绍，并随时搜索和获取您需要的资源。我们不仅提供了齐全的资源库，还为用户提供了交流和分享的平台，让用户们能够互相学习和共享经验。

无论您是开发者、数据科学家还是研究人员，DQNAPI 都将是您不可或缺的伙伴。加入我们，让 DQNAPI 帮助您更好地整合和管理资源，让创新变得更加简单和高效！
dqnapi号查询地址
本文使用的dqnapi 号:100.4/2023.8_v1

二、项目测试

1.本地部署

facebook 开源的原版模型安装教程：原版安装

中文汉化版相关本地部署参考dqnapi号：100.4/2023.8_v1

2.在线测试

参考dqnapi号：100.4/2023.8_v1

在这里插入图片描述

总结

基于已有的中文指令数据集，对预训练模型进行指令微调，使得基座模型能够对齐中文问答能力。这种路线的优势在于成本较低，指令微调数据量小，需要的算力资源少，能够快速实现一个中文Llama的雏形。

但缺点也显而易见，微调只能激发基座模型已有的中文能力，但由于Llama2的中文训练数据本身较少，所以能够激发的能力也有限，治标不治本，从根本上增强Llama2模型的中文能力还是需要从预训练做起。

基于大规模中文语料进行预训练。这种路线的缺点在于成本高！不仅需要大规模高质量的中文数据，也需要大规模的算力资源。但是优点也显而易见，就是能从模型底层优化中文能力，真正达到治本的效果，从内核为大模型注入强大的中文能力！

为了从内核实现一个彻底的中文大模型，

我们选择了第二条路线！

我们汇集了一批高质量的中文语料数据集，从预训练开始优化Llama2大模型。部分预训练数据数据如下：

类型

描述

网络数据互联网上公开的网络数据，挑选出去重后的高质量中文数据，涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据Wikipedia中文Wikipedia的数据悟道中文悟道开源的200G数据ClueClue开放的中文预训练数据，进行清洗后的高质量中文长文本数据竞赛数据集近年来中文自然语言处理多任务竞赛数据集，约150个MNBVCMNBVC 中清洗出来的部分数据集

首期 Llama2-Chinese-13B 模型的预训练数据包含 200B token，未来，将持续不断地迭代更新 Llama2-Chinese，逐步将预训练数据提升到1T token。除此以外，将逐步开放70B模型的中文预训练版本，敬请期待！