大模型介绍1：理论基础

hzp666

已于 2024-02-04 08:43:26 修改

阅读量1.3k

点赞数 20

分类专栏： PRD 机器学习文章标签：大模型 GPT AIGC ChatGPT 大模型训练

于 2024-01-23 11:11:55 首次发布

本文链接：https://blog.csdn.net/hzp666/article/details/135765522

版权

PRD 同时被 2 个专栏收录

112 篇文章 5 订阅

订阅专栏

机器学习

70 篇文章 4 订阅

订阅专栏

大模型的关键技术：

早期的语言大模型表现出一定的少样本学习能力，但是其学习目标主要通过预测下一个单词实现，仍不能很好地遵循人类指令，甚至会输出无用的、有害的信息，难以有效对齐人类的偏好。

针对这些问题，主要有两种大模型改进技术，包括指令微调（ Instruction Tuning ） [20]以及基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) [21] 。

指令微调

利用格式化（指令和回答配对）的训练数据加强大模型的通用任务泛化能力；

基于人类反馈的强化学习（如图 1-2 所示）

将人类标注者引入到大模型的学习过程中，训练与人类偏好对齐的奖励模型，进而有

效指导语言大模型的训练，使得模型能够更好地遵循用户意图，生成

符合用户偏好的内容。

在大模型使用过程中，可以使用各种提示技术（包括思维链（ Chain-of-Thoughts, CoT ） [22] 、思维树（ Tree-of-Thoughts, ToT ） [23] 等），从而更好地利用大模型的潜在能力，提升大模型解决实际问题的能力。

大模型演进

作为重要前沿探索力量， OpenAI 对于语言大模型的研发工作主要是在 Transformer 架构推出后开展，形成了一系列的技术进展。

其中， GPT-1 探索了解码器 Transformer 架构（ decoder-only Transformer）在“预训练 + 微调”范式下的自然语言任务求解能力；

GPT-2 初步验证了扩大模型参数规模的有效性（扩展法则），并且探索了基于自然语言提示的多任务解决能力；

GPT-3 首次探索了千亿参数规模的语言模型效果，提出了基于“上下文学习”的任务解决方法；

CodeX[25] 使用代码数据对 GPT-3 进行微调，从而提升代码能力和复杂推理能力；

InstructGPT[21] 基于人类反馈的强化学习技术（ RLHF），能够强化对于人类指令的遵循能力和人类偏好的对齐能力；

ChatGPT 与 InstructGPT 的技术原理相似，进一步引入了对话数据进行学习，从而加强了多轮对话能力；

GPT-4[26]能够处理更长的上下文窗口，具备多模态理解能力，在逻辑推理、复杂任务处理方面的能力得到显著改进，但其他相关技术细节未予披露。

所以，个人认为未来多模态和实体智能结合，可以有更多发展。

大模型主要产品

大模型服务平台正向个人开放及商业落地应用延伸 ,不同公司互有侧重 , 为用户提供了多种获取大模型能力的途径。

OpenAI API 较早地面向公众开放的大模型服务平台 , 用户可以通过 API 访问不同的 GPT 模型来完成下游任务。

Claude 系列模型是由 Anthropic 开发的闭源语言大模型，目前包含 Claude 和 Claude-Instant 两种模型可供选择。该系列模型通过无监督预训练、基于人类反馈的强化学习和 Constitutional AI 技术（包含监督训练和强化学习）进行训练，旨在改进模型的有用性、诚实性和无害性。

Claude 最高支持 100K 词元的上下文，而 Claude-2 更是拓展到了 200K 词元的上下文。

文心一言是基于百度文心大模型的知识增强语言大模型，提供 APP、网页版、 API 接口等多种形式的开放服务。文心一言还建设了插件机制，通过外部工具、服务的调用，拓展大模型的能力的边界。

讯飞星火认知大模型具有开放式知识问答、多轮对话、逻辑和数学能力，并且具有较强的对代码和多模态的理解能力。

星火一体机，讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”，可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。

开源框架

开源框架可以有效地支撑大规模模型的训练，如：

PyTorch[27]10提供了分桶梯度、通信计算重叠、跳过同步等技术 ,支持大规模的分布式数据并行训练；

飞桨 [28] 是国产的深度学习框架,早在内部就支持了大规模分布式训练，覆盖了计算机视觉、自然语言处理等多个领域的模型，其中 4D 混合并行策略 , 可训练千亿规模模型；

OneFlow 将分布式集群抽象成逻辑上的超级设备 , 支持动静态图灵活转换 , 以数据+ 模型混合并行提升性能；

DeepSpeed[29]是微软推出的大模型训练框架 , 其中 ZeRO 技术减少冗余内存访问 ,使得可以训练万亿级模型。

开源大模型可降低大模型研究的门槛，促进大模型应用的繁荣。

开源大模型

典型代表有：

LLaMA[30] 系列是 Meta 研发的开源大模型 , 参数规模从 7B 到 65B 不等 , 仅依赖公开数据集进行预训练 ,通过数据过滤和并行优化实现高效训练。

Falcon[31] 系列来自阿布扎比的 TII 研究院 ,最大规模达 180B 参数 , 基于开源许可发布 , 性能与 GPT-4 和 PaLM2 相当 ,参数量却较小。

GLM[32] 系列采用空白填充等多任务联合训练方式 ,提升了模型的生成能力。

Baichuan 系列模型由百川智能开发 , 支持中英双语, 使用高质量训练数据 ,在多个基准测试上表现优秀，该系列模型还开源了多种量化版本。

Baichuan 2 在保留原有模型优势的基础上 ,增强了逻辑推理等方面的能力。

CPM [33][34]系列采用经典的语言模型自回归训练方式 , 在各类中文 NLP 任务上均表现卓越。

大模型应用

大模型技术具有广泛的应用场景，可以用来赋能不同行业。

大模型+ 传媒可以实现智能新闻写作，降低新闻的生产成本；

大模型 +影视 可以拓宽创作素材，开拓创作思路，激发创作灵感，提升作品质量；

大模型+ 营销可以打造虚拟客服，助力产品营销；

大模型 +娱乐可以加强人机互动，激发用户参与热情，增加互动的趣味性和娱乐性；

大模型+ 军事可以增强军事情报和决策能力，可以实现实时战场翻译，快速准确的威胁评估、作战任务规划和执行、战场感知、战术决策支持、改进态势感知等；

大模型 +教育可以赋予教育教材新活力，让教育方式更个性化、更智能；

大模型+ 金融可以帮助金融机构降本增效，让11 金融服务更有温度；

大模型 +医疗可以赋能医疗机构诊疗全过程。

总之，大模型的发展将给人类带来了非常强大的助推力，让数字世界和现实世界的共生变得更为便捷、更为有效。

大模型技术的风险与挑战

事实性、时效性方面等仍存在较多问题，尚无法对所合成内容做出可靠评估

可解释性存在不足。大模型基于深度神经网络，为黑盒模型，其工作机理仍难以理解。语言大模型的涌现能力[18]、规模定律[14]，多模态大模型的知识表示、逻辑推理能力、泛化能力、情景学习能力[19][37]等方面有待展开深入研究，为大模型的大规模实际应用提供理论保障。

部署代价高。大模型参数规模和数据规模都非常巨大，存在训练和推理计算量大、功耗高、应用成本高、端侧推理存在延迟等问题，从而限制了其落地应用。提高推理速度降低大模型使用成本是大规模应用的关键。

小数据情景下的迁移能力存在不足。大模型基于数据驱动深度学习方式，依赖训练数据所覆盖的场景，由于复杂场景数据不足，大模型存在特定场景适用性不足的问题，面临鲁棒性和泛化性等挑战。提升大模型对小数据的高效适配迁移能力是未来研究的重点。

伴生技术风险问题。语音合成、图像视频生成等技术结合可以产生人类难以辨别的音视频等逼真多媒体内容，可能会被滥用于制造虚假信息、恶意引导行为，诱发舆论攻击、甚至危害国家安全。

安全与隐私问题。数据投毒攻击、对抗样本攻击、模型窃取攻击、后门攻击、指令攻击。海量的互联网数据进行训练，包括个人、企业甚至国家的敏感数据可能被编码进大模型参数中

hzp666

关注

20
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
大模型介绍1：理论基础

语言大模型的涌现能力[18]、规模定律[14]，多模态大模型的知识表示、逻辑推理能力、泛化能力、情景学习能力[19][37]等方面有待展开深入研究，为大模型的大规模实际应用提供理论保障。大模型基于数据驱动深度学习方式，依赖训练数据所覆盖的场景，由于复杂场景数据不足，大模型存在特定场景适用性不足的问题，面临鲁棒性和泛化性等挑战。早期的语言大模型表现出一定的少样本学习能力，但是其学习目标主要通过预测下一个单词实现，仍不能很好地遵循人类指令，甚至会输出无用的、有害的信息，难以有效对齐人类的偏好。
复制链接

扫一扫