简介
我们介绍 EXAONE-3.0-7.8B-Instruct,这是一个经过预训练和指令调整的双语(英语和韩语)生成模型,拥有 78 亿个参数。该模型使用 8T Curated tokens 进行预训练,并使用监督微调和直接偏好优化进行后训练。与其他类似规模的先进开放模型相比,该模型的基准性能极具竞争力。
要点
■ 英语达到全球顶级水平:在实际使用案例中平均排名第一,在基准测试中也表现良好
与其他型号相比,7.8B型号的英文性能处于全球顶级水平。EXAONE的目标是成为可以在专业行业中使用的高级专家AI。为了使 AI 模型用于专业行业和专业领域,它们需要在真实世界的用例中表现出色。也就是说,以一种复杂的方式,以便人类可以信任和使用它。为了评估这些方面,Chatbot Arena方法最近被广泛使用,这是一种直接使用和评估基于人类经常使用的特征的模型的方法。这些评估非常耗时,但它们的优点是能够准确评估模型的实际有用性。为了检查 7.8B 模型的英语语言性能,我们选择了四个类似于 Chatbot Arena 评估方式的关键基准,并根据人类大量使用的项目评估模型。因此,EXAONE 7.8B 模型在大多数基准测试中排名第一,平均得分最高。
它在基准测试中也表现良好。它在数学和编码的平均分数中排名第一,证明它优于其他模型。此外,在推理方面也取得了强劲的性能结果。
Quick Start
建议使用 Transformer v4.41 或更高版本。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct")
# Choose your prompt
prompt = "Explain who you are" # English example
prompt = "너의 소원을 말해봐" # Korean example
messages = [
{"role": "system",
"content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=128
)
print(tokenizer.decode(output[0]))
注意
EXAONE 3.0 指令调优语言模型经过训练,可以利用系统提示符,因此我们强烈建议使用上述代码片段中提供的系统提示符。
评估
我们将 EXAONE-3.0-7.8B-Instruct 与类似大小的指令调优 LLM 进行了比较。为了验证真实世界用例的性能,我们测量了与 LMSYS Chatbot Arena 具有高度相关性的基准测试。一些实验结果如下所示。完整的评估结果可以在技术报告中找到。
Language | Benchmark | EXAONE 3.0 7.8B Inst. | Llama 3.1 8B Inst. | Gemma 2 9B Inst. | QWEN 2 7B Inst. | Phi 3 7B Inst. | Mistral 7B Inst. |
---|---|---|---|---|---|---|---|
English | MT-Bench | 9.01 | 7.95 | 8.52 | 8.41 | 8.52 | 7.72 |
Arena-Hard-v0.1 | 46.8 | 28.0 | 42.1 | 21.7 | 29.1 | 16.2 | |
WildBench | 48.2 | 34.5 | 41.5 | 34.9 | 32.8 | 29.0 | |
AlpacaEval 2.0 LC | 45.0 | 31.5 | 47.5 | 24.5 | 37.1 | 31.0 | |
Korean | KoMT-Bench[1] | 8.92 | 6.06 | 7.92 | 7.69 | 4.87 | 5.20 |
LogicKor | 8.62 | 5.40 | 8.07 | 6.12 | 3.76 | 3.42 |
KoMT-Bench 是通过将 MT-Bench 翻译成韩语创建的数据集;有关详细信息,请参阅自述文件。
最后
亚洲作为语言最为丰富的地域,对于NLP的研究也会提供相当不错的温床,我还是建议开眼看世界,在科研领域唯有合作共赢才有更大的发展。