探索YuLan-Mini:一款开放、数据高效的语言模型

在人工智能领域,大型语言模型(LLMs)的发展日新月异,而YuLan-Mini正是这一领域的最新突破。由中国人民大学高瓴人工智能学院(Gaoling School of Artificial Intelligence, Renmin University of China)的研究团队开发的YuLan-Mini,是一款具有2.42亿参数的轻量级语言模型,它在数学和代码领域表现出色,并且在性能上可与训练数据量更大的行业领先模型相媲美。

在这里插入图片描述

核心特性

YuLan-Mini的核心特性体现在以下几个方面:

  • 数据高效:尽管YuLan-Mini仅在1.08T个token上进行了预训练,但其性能却达到了与训练数据量更大的模型相当的水平。
  • 长上下文能力:YuLan-Mini的上下文长度扩展到了28,672个token,这使得它在处理长文本任务时更加出色,同时在短文本任务中也保持了高准确率。
  • 先进的训练技术:通过精心设计的数据管道、系统优化方法和有效的退火方法,YuLan-Mini减少了对大规模数据集的依赖,同时确保了高质量的学习效果,并有效避免了训练过程中的常见问题,如损失激增和梯度爆炸。

性能基准

YuLan-Mini在多个基准测试中的表现令人瞩目:

  • 在零样本场景下的HumanEval测试中获得了64.00的高分。
  • 在四样本设置下的MATH-500测试中获得了37.80的成绩。
  • 在五样本任务中的MMLU测试中得分为49.10

在这里插入图片描述

ModelsModel Size# Train TokensContext LengthMATH 500GSM 8KHuman EvalMBPPRACE MiddleRACE HighRULER
MiniCPM2.6B1.06T4K15.0053.8350.00*47.3156.6144.27N/A
Qwen-21.5B7T128K22.6046.90*34.80*46.90*55.7743.6960.16
Qwen2.50.5B18T128K23.6041.60*30.50*39.30*52.3640.3149.23
Qwen2.51.5B18T128K45.4068.50*37.20*60.20*58.7744.3368.26
Gemma22.6B2T8K18.30*30.30*19.50*42.10*--N/A
StableLM21.7B2T4K-20.628.50*17.5056.3345.06N/A
SmolLM21.7B11T8K11.80-23.3545.0055.7743.06N/A
Llama3.23.2B9T128K7.40-29.3049.7055.2943.3477.06
YuLan-Mini2.4B1.04T4K32.6066.6561.6066.7055.7143.58N/A
YuLan-Mini2.4B1.08T28K37.8068.4664.0065.9057.1844.5751.48

这些结果强调了YuLan-Mini在资源有限的情况下,仍能提供高性能的能力,这对于AI技术的可访问性至关重要

示例

Huggingface

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("yulan-team/YuLan-Mini")
model = AutoModelForCausalLM.from_pretrained("yulan-team/YuLan-Mini", torch_dtype=torch.bfloat16)

# Input text
input_text = "Renmin University of China is"
inputs = tokenizer(input_text, return_tensors="pt")

# Completion
output = model.generate(inputs["input_ids"], max_new_tokens=100)
print(tokenizer.decode(output[0], skip_special_tokens=True))

vLLM Serve

vllm serve yulan-team/YuLan-Mini --dtype bfloat16

SGLang Serve

python -m sglang.launch_server --model-path yulan-team/YuLan-Mini --port 30000 --host 0.0.0.0

开源贡献

YuLan-Mini项目的所有数据和代码仅供学术研究使用,并遵循MIT许可。项目详细信息和模型权重可以在GitHub页面上找到

https://github.com/RUC-GSAI/YuLan-Mini

结论

YuLan-Mini以其数据高效和长上下文能力,为大型语言模型的发展树立了新的标杆。它的出现不仅展示了中国人民大学高瓴人工智能学院在AI领域的研究实力,也为全球AI社区提供了一个强大的工具。随着YuLan-Mini的进一步发展和应用,我们期待它在自然语言处理领域带来更多的创新和突破。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值