LG AI 研究中心开源英韩大语言模型——EXAONE-3.0

DisonTangor

于 2024-08-07 12:32:46 发布

阅读量407

点赞数 7

分类专栏：人工智能文章标签：人工智能语言模型自然语言处理

本文链接：https://blog.csdn.net/weixin_41446370/article/details/140988525

版权

人工智能专栏收录该内容

161 篇文章 3 订阅

订阅专栏

简介

我们介绍 EXAONE-3.0-7.8B-Instruct，这是一个经过预训练和指令调整的双语（英语和韩语）生成模型，拥有 78 亿个参数。该模型使用 8T Curated tokens 进行预训练，并使用监督微调和直接偏好优化进行后训练。与其他类似规模的先进开放模型相比，该模型的基准性能极具竞争力。

要点

■ 英语达到全球顶级水平：在实际使用案例中平均排名第一，在基准测试中也表现良好

与其他型号相比，7.8B型号的英文性能处于全球顶级水平。EXAONE的目标是成为可以在专业行业中使用的高级专家AI。为了使 AI 模型用于专业行业和专业领域，它们需要在真实世界的用例中表现出色。也就是说，以一种复杂的方式，以便人类可以信任和使用它。为了评估这些方面，Chatbot Arena方法最近被广泛使用，这是一种直接使用和评估基于人类经常使用的特征的模型的方法。这些评估非常耗时，但它们的优点是能够准确评估模型的实际有用性。为了检查 7.8B 模型的英语语言性能，我们选择了四个类似于 Chatbot Arena 评估方式的关键基准，并根据人类大量使用的项目评估模型。因此，EXAONE 7.8B 模型在大多数基准测试中排名第一，平均得分最高。

它在基准测试中也表现良好。它在数学和编码的平均分数中排名第一，证明它优于其他模型。此外，在推理方面也取得了强劲的性能结果。

Quick Start

建议使用 Transformer v4.41 或更高版本。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct")

# Choose your prompt
prompt = "Explain who you are"  # English example
prompt = "너의 소원을 말해봐"   # Korean example

messages = [
    {"role": "system", 
     "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128
)
print(tokenizer.decode(output[0]))

注意
EXAONE 3.0 指令调优语言模型经过训练，可以利用系统提示符，因此我们强烈建议使用上述代码片段中提供的系统提示符。

评估

我们将 EXAONE-3.0-7.8B-Instruct 与类似大小的指令调优 LLM 进行了比较。为了验证真实世界用例的性能，我们测量了与 LMSYS Chatbot Arena 具有高度相关性的基准测试。一些实验结果如下所示。完整的评估结果可以在技术报告中找到。

Language	Benchmark	EXAONE 3.0 7.8B Inst.	Llama 3.1 8B Inst.	Gemma 2 9B Inst.	QWEN 2 7B Inst.	Phi 3 7B Inst.	Mistral 7B Inst.
English	MT-Bench	9.01	7.95	8.52	8.41	8.52	7.72
	Arena-Hard-v0.1	46.8	28.0	42.1	21.7	29.1	16.2
	WildBench	48.2	34.5	41.5	34.9	32.8	29.0
	AlpacaEval 2.0 LC	45.0	31.5	47.5	24.5	37.1	31.0
Korean	KoMT-Bench^[1]	8.92	6.06	7.92	7.69	4.87	5.20
	LogicKor	8.62	5.40	8.07	6.12	3.76	3.42