LG AI 研究中心开源英韩大语言模型——EXAONE-3.0

简介

我们介绍 EXAONE-3.0-7.8B-Instruct,这是一个经过预训练和指令调整的双语(英语和韩语)生成模型,拥有 78 亿个参数。该模型使用 8T Curated tokens 进行预训练,并使用监督微调和直接偏好优化进行后训练。与其他类似规模的先进开放模型相比,该模型的基准性能极具竞争力。

要点

■ 英语达到全球顶级水平:在实际使用案例中平均排名第一,在基准测试中也表现良好

与其他型号相比,7.8B型号的英文性能处于全球顶级水平。EXAONE的目标是成为可以在专业行业中使用的高级专家AI。为了使 AI 模型用于专业行业和专业领域,它们需要在真实世界的用例中表现出色。也就是说,以一种复杂的方式,以便人类可以信任和使用它。为了评估这些方面,Chatbot Arena方法最近被广泛使用,这是一种直接使用和评估基于人类经常使用的特征的模型的方法。这些评估非常耗时,但它们的优点是能够准确评估模型的实际有用性。为了检查 7.8B 模型的英语语言性能,我们选择了四个类似于 Chatbot Arena 评估方式的关键基准,并根据人类大量使用的项目评估模型。因此,EXAONE 7.8B 模型在大多数基准测试中排名第一,平均得分最高。

它在基准测试中也表现良好。它在数学和编码的平均分数中排名第一,证明它优于其他模型。此外,在推理方面也取得了强劲的性能结果。

Quick Start

建议使用 Transformer v4.41 或更高版本。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct")

# Choose your prompt
prompt = "Explain who you are"  # English example
prompt = "너의 소원을 말해봐"   # Korean example

messages = [
    {"role": "system", 
     "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128
)
print(tokenizer.decode(output[0]))

注意
EXAONE 3.0 指令调优语言模型经过训练,可以利用系统提示符,因此我们强烈建议使用上述代码片段中提供的系统提示符。

评估

我们将 EXAONE-3.0-7.8B-Instruct 与类似大小的指令调优 LLM 进行了比较。为了验证真实世界用例的性能,我们测量了与 LMSYS Chatbot Arena 具有高度相关性的基准测试。一些实验结果如下所示。完整的评估结果可以在技术报告中找到。

LanguageBenchmarkEXAONE 3.0
7.8B Inst.
Llama 3.1
8B Inst.
Gemma 2
9B Inst.
QWEN 2
7B Inst.
Phi 3
7B Inst.
Mistral 7B
Inst.
EnglishMT-Bench9.017.958.528.418.527.72
Arena-Hard-v0.146.828.042.121.729.116.2
WildBench48.234.541.534.932.829.0
AlpacaEval 2.0 LC45.031.547.524.537.131.0
KoreanKoMT-Bench[1]8.926.067.927.694.875.20
LogicKor8.625.408.076.123.763.42

KoMT-Bench 是通过将 MT-Bench 翻译成韩语创建的数据集;有关详细信息,请参阅自述文件。

最后

亚洲作为语言最为丰富的地域,对于NLP的研究也会提供相当不错的温床,我还是建议开眼看世界,在科研领域唯有合作共赢才有更大的发展。

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值