Baichuan-13B：130亿参数的开源语言模型，引领中文和英文benchmark

最新推荐文章于 2024-08-23 13:36:24 发布

无数据不智能

最新推荐文章于 2024-08-23 13:36:24 发布

阅读量1.3k

点赞数

文章标签： gpt chatgpt 语言模型

本文链接：https://blog.csdn.net/qq_28221231/article/details/131729800

版权

Baichuan-13B是百川智能开发的开源大规模语言模型，拥有130亿参数，在中英文benchmark上表现出色。模型支持双语并使用ALiBi位置编码，提供预训练和对齐版本，以及量化版本以降低部署要求。它是目前开源13B模型中训练数据量最大的，并在多个领域超越其他模型，旨在促进自然语言处理的研究和开发。

摘要由CSDN通过智能技术生成

Baichuan-13B: 一个强大的开源大规模语言模型

标题：Baichuan-13B：130亿参数的开源语言模型，引领中文和英文benchmark

Baichuan-13B是由百川智能开发的一个开源大规模语言模型项目，包含了130亿参数。该模型在中文和英文的权威benchmark上达到了同尺寸模型的最佳效果。这个项目发布了两个版本，包括预训练版本(Baichuan-13B-Base)和对齐版本(Baichuan-13B-Chat)。

Baichuan-13B具有以下几个特点：首先，它比之前的Baichuan-7B模型参数更多、尺寸更大，达到了130亿参数，并在高质量的语料上进行了1.4万亿tokens的训练，比LLaMA-13B模型多出了40%的训练数据量，是目前开源的13B尺寸模型中训练数据量最大的。其次，Baichuan-13B支持中英双语，并且使用了ALiBi位置编码，上下文窗口长度为4096。再次，该项目同时开源了预训练模型和对齐模型，预训练模型作为开发者的基础模型，而对齐模型则具备强大的对话能力，可以直接使用且部署简单。最后，为了支持更广大用户的使用，该项目还同时开源了int8和int4量化版本，这些版本在几乎没有效果损失的情况下大大降低了部署所需机器资源，甚至可以在消费级显卡（如Nvidia 3090）上进行部署。

Baichuan-13B是免费开源且可商用的，无论是学术研究还是开发者都可以自由使用。只需进行官方商用许可的邮件申请，即可免费商用。

在各个权威的中英文benchmark上，Baichuan-13B进行了5-shot评测，其结果如下：

○ STEM：Baichuan-7B：38.2，Chinese-Alpaca-Plus-13B：35.2，Vicuna-13B：37.8

○ Social Sciences：Baichuan-7B：52.0，Chinese-Alpaca-Plus-13B：45.6，Vicuna-13B：48.2

○ Humanities：Baichuan-7B：46.2，Chinese-Alpaca-Plus-13B：40.0，Vicuna-13B：42.6

○ Others：Baichuan-7B：39.3，Chinese-Alpaca-Plus-13B：38.2，Vicuna-13B：39.9

○ Average：Baichuan-7B：42.8，Chinese-Alpaca-Plus-13B：38.8，Vicuna-13B：42.1

通过这些benchmark结果可以看出，Baichuan-13B相比其他模型，在多个领域的测试中取得了更好的效果。

Baichuan-13B项目的目标是提供一个强大的开源大规模语言模型，以帮助学术研究和开发者进行自然语言处理任务。无论是处理中文还是英文，Baichuan-13B都可以提供高质量的语言建模和对话功能。该项目的开源和免费商用政策，使得更多的人可以充分利用这个强大的资源，加速他们的研究和开发工作。

项目：baichuan-inc/Baichuan-13B

无数据不智能

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Baichuan-13B：130亿参数的开源语言模型，引领中文和英文benchmark

Baichuan-13B具有以下几个特点：首先，它比之前的Baichuan-7B模型参数更多、尺寸更大，达到了130亿参数，并在高质量的语料上进行了1.4万亿tokens的训练，比LLaMA-13B模型多出了40%的训练数据量，是目前开源的13B尺寸模型中训练数据量最大的。再次，该项目同时开源了预训练模型和对齐模型，预训练模型作为开发者的基础模型，而对齐模型则具备强大的对话能力，可以直接使用且部署简单。Baichuan-13B是由百川智能开发的一个开源大规模语言模型项目，包含了130亿参数。
复制链接

扫一扫