前沿科技速递🚀
LG AI研究院近期发布的EXAONE 3.0 7.8B指令调优语言模型,以7.8B参数量和8T数据训练量为基础,展现了卓越的双语生成能力。与同类模型相比,EXAONE 3.0不仅在英语和韩语的多项基准测试中斩获头筹,更通过其高效的模型架构和经济可行性的优化,为AI研究和应用打开了新的局面。
来源:传神社区
01 模型简介
EXAONE 3.0是LG AI研究院推出的一个指令微调大语言模型,拥有78亿参数。该模型经过了8万亿token的高质量数据训练,支持英文和韩文两种语言,在广泛的基准测试中表现优异。
EXAONE 3.0采用了解码器仅变换器架构,这种架构摒弃了传统变换器中的编码器部分,专注于生成输出序列。这种设计不仅降低了模型的复杂性,还增强了模型处理长距离依赖关系的能力。此外,EXAONE 3.0支持4096个token的上下文长度,这意味着它能够处理和记忆更长的文本序列,为文本生成、翻译和摘要等任务提供了强大的支持。
02 英语表现达到全球顶级水平
与其他模型相比,EXAONE 7.8B模型在英语上的表现处于全球顶级水平。EXAONE的目标是成为能够在专业领域中使用的高级专家AI。为了使AI模型在专业行业中得到广泛应用,它们必须在复杂的现实用例中表现出色,使人类能够信赖并使用。为了评估这一点,LG AI选择了与Chatbot竞技场评估方法类似的四个关键基准,并在人类使用频率较高的项目中对模型进行了测试。结果显示,EXAONE 7.8B模型在大多数基准测试中排名第一,且平均得分最高。
此外,EXAONE 7.8B在数学和编码的基准测试中表现优异,显示出其在推理方面的强大能力,超越了其他同类模型。
03 出色的韩语表现:平均得分排名第一
EXAONE 7.8B模型是一个双语模型,支持英语和韩语。在韩语的性能评估中,使用了两个基准测试来检查其在真实用例中的表现,并配置了多个基准测试来评估模型的整体表现。结果显示,EXAONE 7.8B在真实用例和整体性能方面均取得了最佳成绩,展现了其在韩语处理上的卓越能力。
04 降本增效:三年的研发,成本降至最初发布型号的6%
为了使AI能够真正融入我们的生活,不仅需要提升性能,还必须增强经济可行性。自2021年EXAONE 1.0发布以来,在过LG AI研究院去三年中专注于AI模型压缩技术的研究与开发,以实现成本效益。最终,7.8B模型的推理处理时间较EXAONE 2.0减少了56%,成本降低了72%,并将总成本降至最初发布的EXAONE 1.0的6%。
05 典型示例
小编使用生成了一些示例,我们一起来看看吧!
看的出模型的双语能力还是很不错的,能同时给出英文与韩文的诗。对模型的中文微调版感兴趣的朋友们也可以来传神社区下载模型,试试微调哦~
06 模型下载
传神社区:https://opencsg.com/models/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct
blog:https://www.lgresearch.ai/blog/view?seq=460
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区