AI 语言大模型关键技术主要涉及基于人类反馈强化学习、指令微调、模型提示等相关技术。
(1) 基于人类反馈强化学习
基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。
基于人类反馈强化学习具体包括以下几个步骤:
1)训练监督策略模型:使用监督学习或无监督学习的方法,对一个预训练的语言模型进行训练,通过给予特定奖励或惩罚引导 AI 模型的行为,使其能够根据给定的输入预测输出或行为。
2)训练奖励模型:让标记员参与提供有关模型输出结果的反馈,对模型生成的多个输出或行为的质量或正确性进行排名或评分,这些反馈被转换为奖励信号,用于后续的强化学习过程。
3)采用近端策略优化进行强化学习:先通过监督学习策略生成近端策略优化(PPO)模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代 PPO模型参数。具体而言,在 PPO 模型训练过程中,智能系统通过尝试不同的行为,并根据每个行为获得的奖励来评估其质量,智能系统逐步改进行为策略。
(2)指令微调
指令微调 (Instruction Tuning) 是帮助语言大模型遵循人类指令,泛化至未知任务的学习方法。其特殊性在于使用(指令,输出)对的数据集进行训练,以增强LLMs的能力和可控性。指令微调可视作有监督微调的一种变体,但更侧重于让模型理解和遵循人类指令。
(3)模型提示
模型提示技术利用语言大模型的潜在能力,通过设计合适的语言指令提示来激发特定任务的能力。典型技术包括指令提示和思维链提示。指令提示提供额外上下文,重组任务以贴近预训练场景;思维链提示则激发多步推理能力,形成〈输入,思维链,输出〉结构,提高模型可解释性。
1.3 中国AI大模型产业发展市场驱动力
中国AI大模型产业发展受多领域需求驱动,如办公、制造、金融等,旨在降本增效、提高效率和降低风险。这些领域的创新推动AI大模型产业蓬勃发展,预示广阔市场前景。
1.3.1 办公场景
大模型结合传统软件,满足文案生成、PPT美化等需求,通过自然语言交互实现智能化办公。智能文档、演示、表格等工具,极大提高办公效率。智能会议则在策划、翻译、记录等环节提供支持,优化会议流程。
1.3.2 制造场景
AI引领制造行业变革,大模型结合EDA/CAE/CAD等工具提升研发设计效率,助力数字孪生和机器人,强化感知和执行任务能力。