干货 | 携程旅游大语言模型系统介绍及其应用

本文介绍了携程构建的旅游大语言模型(LLM)系统,包括训练和推理过程。训练系统涉及预训练、继续预训练和微调阶段,利用PyTorch、DeepSpeed等技术提高训练效率。推理系统注重低延迟、高吞吐和并发能力,通过KV-Cache、PagedAttention等优化措施提高性能。此外,LLM在智能客服机器人、信息抽取和会话总结等旅游场景中展现出高效应用,显著提升了准确率和效率。
摘要由CSDN通过智能技术生成

作者简介

Terry,携程自然语言处理和大语言模型算法方向专家,有多年的自然语言处理项目经验和AI落地经验。

一、背景

随着OpenAI的ChatGPT火遍全球,大语言模型(Large Language Model,下文简称LLM)成为了人工智能领域的热门话题。大语言模型是一种基于深度学习的自然语言处理技术,它能够模拟人类的语言能力并生成连贯的文本。这种技术的出现引起了广泛的关注和应用。大型语言模型在机器翻译、文本生成、智能对话等领域发挥着重要作用。在这些领域中,它们能够理解和生成自然语言,使得机器能够更好地与人类进行交流和合作。

无论是在学术研究还是商业领域中,LLM都有潜力成为一个强大的工具,帮助我们更好地理解和利用自然语言。但由于ChatGPT是闭源且信息安全存疑,并不适合在企业内部的所有业务场景使用。此外,最近有大批优秀的开源大语言模型涌现,比如Llama-2。因此,很多企业构建属于自己领域的LLM和配套系统,应用在自身的业务场景中。为了适应旅游场景的应用,我们也构建了一套训练、推理LLM的系统,充分利用LLM的强大能力。

二、LLM训练系统

2.1 训练基础架构

LLM训练系统有预训练(Pretrain)、继续预训练(Continue Pretrain)、微调(Finetune)几个模式。

1)预训练阶段使用的数据是大规模的通用数据,通常训练成本高达数百万GPU-hour,成本很高。例如在Llama-2-70B的预训练中,使用的172万GPU-hour,在Falcon-180B的预训练中,使用了超过700万GPU-hour。

2)继续预训练阶段基于预训练过的基座模型(foundation model),使用特定领域的无标注数据训练,通常需要数千GPU-hour。可以用于学习领域内知识,拓展语言、领域词表。

3)微调阶段基于基座模型,使用特定任务的数据训练,可以使模型对齐某些输出范式,完成特定的任务,通常需要10到1000 GPU-hour,成本较低。代表模型有Alpaca等。

训练框架基于PyTorch + DeepSpeed、Transformers的技术路线,有Nvidia、Meta、Microsoft、HuggingFace等公司支持,并且有广泛社区支持。PyTorch在更新至2.0后,加入compile模式,大幅提升训练速度;DeepSpeed中的ZeRO与offload技术帮助模型在多机多卡的训练中使用较小的显存用量;这些技术简化了百亿到千亿参数的模型的训练,并且在训练中保持稳定。

通过Flash Attention、Apex、算子融合等提高硬件利用率的技术,目前我们可以以超过50%浮点利用率(MFU)的效率训练百亿参数的模型。

2.2 训练参数量

根据可训练的参数量可以分为全参数训练、LoRA、QLoRA等技术。

全参数训练推荐在大量数据及预算充分的情况下使用,训练时模型的全部参数参与训练,可以精准的对齐目标范式;LoRA、QLoRA作为参数高效的训练方式,推荐在资源受限或需要快速获取结果的情况下使用。

2.3 拓展词表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值