随着2022年年底OpenAI公司推出ChatGPT(Chat Generative Pre-trained Transformer,基于生成式预训练Transformer模型的聊天机器人)产品,围绕大模型(Large Language Model,大语言模型,简称大模型)的人工智能商业化进程进入快车道,蓬勃发展的大模型时代来临。
当前的大模型发展具有两大“快速”特征:一个是大模型技术快速迭代;另一个是大模型应用生态快速丰富。
从全球范围来看,中美在大模型领域呈现领跑趋势。中国方面,百度公司的文心大模型、华为公司的盘古大模型、科大讯飞公司的星火认知大模型、京东集团的言犀大模型、阿里巴巴公司的通义大模型、腾讯公司的混元大模型等加速引爆中国大模型研究热潮;美国方面,OpenAI公司推出GPT-4多模态大模型,Google公司推出RT-X通用机器人模型与Gemini多模态大模型,Meta公司推出AnyMAL多模态大模型。另外,开源大模型在推动大模型技术发展以及大模型应用落地等方面发挥了非常重要的作用。比如,清华大学唐杰教授团队与智谱AI推出的ChatGLM3、BAAI(北京智源人工智能研究院)推出的悟道3.0大模型、百川智能公司推出的Baichuan2、Meta公司推出的LLaMA2、Google公司推出的Gemma等,极大地降低了大模型的开发门槛。开发者能够基于开源模型训练出功能多样的新模型,促进大模型快速发展。
一,什么是大模型
大模型属于Foundation Model(基础模型),是一种神经网络模型,具有参数量大、训练数据量大、计算能力要求高、泛化能力强、应用广泛等特点。与传统人工智能模型相比,大模型在参数规模上涵盖十亿级、百亿级、千亿级等,远远超过传统模型百万级、千万级的参数规模。不同于传统人工智能模型通过一定量的标注数据进行训练,一个性能良好的大模型通过海量数据及设计良好、内容多样的高质量标注语料库进行训练。同时,大模型也很难在单个GPU(Graphics Processing Unit,图形处理器)上进行预训练,需要使用DeepSpeed、Megatron-LM等训练优化技术在集群中进行分布式训练。
大模型技术过程如图1所示。在大模型技术发展初期,人们在解决具有序列特性的数据(指具有先后顺序的数据)的领域的问题时,主要依赖RNN(Recurrent Neural Network,循环神经网络)和LSTM(Long Short-Term Memory,长短期记忆网络)等序列模型,但这些模型都包含不可并行计算的缺点。
图1 大模型技术演进过程
Word2Vec是Google公司于2013年提出的一种高效训练词向量的模型,基本出发点是上下文相似的词的词向量也应该相似。它在2018年之前非常流行,但随着2018年Google公司推出预训练语言表征模型BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器表示)以及其他模型的出现,Word2Vec被这些新模型超越。
2017年Google公司提出的Transformer架构引入了自注意力机制和位置编码,改进了RNN和LSTM不可并行计算的缺陷。Google公司发布的模型还包括2018年用来解决NLP(Natural Language Processing,自然语言处理)中的多义词问题的双向LSTM语言模型ELMo以及2018年基于Transformer架构的具有3.4亿个参数的BERT模型。OpenAI公司推出的生成式预训练语言模型包括2018年的具有1.1亿个参数的GPT、2019年的具有15亿个参数的GPT-2、2020年的具有1750亿个参数的GPT-3,以及2022年的ChatGPT。这些模型或产品将大模型的发展推向高潮。2023年,越来越多的开源模型如LLaMA、ChatGLM等相继发布。
另外,AutoGPT等自主人工智能实现了大模型与各类工具的有效结合,使AI智能体(AI Agent)成为行业研究热点。2023年GPT-4、GPT-4V、AnyMAL、文心大模型4.0等的出现更是将大模型的发展方向由语言模型引向通用性更强的多模态/跨模态模型。2023年11月,OpenAI公司发布处理速度更快、费用更低的GPT-4 Turbo模型,并宣布用户无需任何代码即可构建属于自己的GPT,并将其发布至GPT Store,这一动作促进了GPT生态系统的进一步完善。2024年,OpenAI公司发布文生视频大模型Sora。该模型能够准确理解用户指令中所表达的需求,并以视频的形式进行展示。由Sora模型创作的视频不仅包含复杂的场景和多个角色,而且对角色的动作、瞳孔、睫毛、皮肤纹理进行了细节刻画。
大模型同样革新了传统的PGC(Professional Generated Content,专业生成内容)和UGC(User Generated Content,用户生成内容),引领了AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的新浪潮。用户可以使用人工智能技术生成具有一定创意和质量的作品。经过短暂的发展,大模型已经将AIGC提升到新的高度,借助先进的大模型技术,用户能够以前所未有的速度、质量和规模生成丰富多样的内容,涵盖文字、图像、音频、视频等多个领域。这一飞跃式的进步不仅极大地提升了内容生产的效率,而且降低了创作的门槛,使得更多人能够参与内容创造。
二,大模型生成原理
大模型基于Transformer架构进行构建,由多层神经网络架构叠加而成,能够根据输入内容预测输出内容。
大模型的核心生成原理是将输入的语句以词向量的表征形式传递给神经网络,通过编码器/解码器(Encoder/Decoder)、位置编码和自注意力机制建立单词(或字)之间的联系。从宏观的视角来看,输入的每个单词(或字)首先会与已经编码在模型中的单词(或字)进行相关性计算,然后把这种相关性以编码的形式叠加在每个单词(或字)中。如图2所示,经过计算后,“it”与输入句子中的其他单词的相关性权重将会增加,颜色越深代表相关性越高。
图2 相关性权重可视化示例
在获得各个单词间的相关性之后,模型以概率分数标记序列中下一个输出的单词的可能性(也称概率),并选择最佳选项。如图3所示,由于“movie”的概率最大,因此模型的最终输出结果为“movie”。
图3 不同单词的输出概率
虽然模型会选择下一个最合适的单词,但是由多个最佳单词组成的句子可以并不通顺。为了解决这个问题,Transformer使用了Beam Search(束搜索)等方法以提高生成质量。这些方法不是只关注序列中的下一个单词,而是将更大的一组单词作为一个整体来考虑,同时考虑多个序列上的联合概率。如图4所示,我们同时考量4个序列上的联合概率(为了方便理解,此处以一组单词的颜色深浅来表示输出概率,单词的颜色越深,代表其被选择并输出的概率越大),将一组单词作为整体进行评估,可以有效提高模型的生成质量。
图4 通过束搜索方法生成最佳输出
综上所述,可以将大模型看作概率模型。不同于通过数据库对数据进行检索,大模型通过大量学习世界知识,依据概率生成足够准确的回答。
三,大模型关键技术
1.迁移学习
迁移学习(Transfer Learning)最早于2005年由加拿大工程院和皇家科学院院士杨强教授提出。作为机器学习的重要分支,迁移学习是指利用在源领域中训练好的模型,将其知识和能力迁移到新的目标领域,以解决该领域的问题。通常,我们会首先在数据量大的领域训练模型,然后将其应用于数据量较小的领域。
换言之,迁移学习通过将模型已学习的知识迁移到新的任务上,以提高模型在新任务上的性能。在大模型的开发过程中,开发者常常将在大型文本数据集上训练好的模型作为基座,通过微调等手段让模型适应新的下游任务。这一应用的核心是运用已有的基础知识来学习更专业的知识。
2.零样本学习
2009年,Lampert等人发布Animals with Attributes数据集(该数据集已在由Lampert领导的奥地利科技学院机器学习与计算机视觉小组网站开源),并提出一种基于属性的类间迁移学习机制。该机制对于零样本学习(Zero-shot Learning)的发展起到重要的奠基作用。零样本学习的核心在于使模型能够识别那些从未在训练集中出现过的数据类别,从而扩展模型的应用范围并增强其泛化能力。
在大模型研究中,模型的零样本学习能力已成为评估模型性能的重要指标之一。与此同时,提示词(Prompt)作为大模型的一种关键输入形式,经常与零样本学习协同使用,以优化模型的性能。提示词可以被视作用户向大模型发送的指令。通过精心设计提示词,用户可以引导大模型生成符合期望的内容。
零样本学习存在使用限制,只有当用户的目标任务与模型已具备的能力相匹配时才能获得最优的零样本学习效果。
用户在实际使用大模型时,通常会根据任务的复杂性选择不同的提示词策略。提示词策略主要包含3种:零样本提示(Zero-shot Prompting)适用于简单任务,无须向大模型提供任何示例,直接下达指令即可;在面对较为复杂的任务时,小样本提示(Few-shot Prompting)更为有效,它通过提供少量示例来帮助大模型更好地理解并执行任务;当面临复杂的推理任务(如算术推理、常识推理和符号推理等)时,思维链提示(Chain-of-Thought Prompting)则成为首选,它通过向大模型提供带有中间推理步骤的示例来引导大模型逐步完成推理。
3.小样本学习
小样本学习(Few-shot Learning)是指大模型通过使用很少的样本来进行学习。与零样本学习相似,小样本学习也经常与提示词配合使用。如果大模型无法理解用户提出的问题,或者用户需要大模型按照特定的格式进行输出时,用户可以使用小样本学习方法,在提示词中加入引导信息并给出一定的样例,指导大模型生成满足业务要求的输出结果。
4.持续学习
在一般情况下,当开发者的需求或所在的应用场景发生变化时,往往需要重新训练模型。作为一种增量学习,持续学习(Continual Learning)的核心思想是在一系列任务上训练模型,模型保留在旧任务上学习的知识并继续在新任务上进行训练。该方法在深度神经网络时代被赋予了更大的实用价值。以百度公司在2019年7月推出的ERNIE 2.0模型为例,研究者使用持续学习方法来训练模型,引入了大量的预训练任务。ERNIE 2.0模型在学习新任务的同时保留对旧任务的记忆,渐进式地学习词语、句法和语义表征知识。在多项自然语言处理任务上,它都取得了超过BERT模型与XLNet模型的表现。
5.多任务学习
传统的机器学习主要基于单任务的模式进行学习。对于复杂的任务,首先将其分解为多个独立的单任务并进行处理,然后对学习的结果进行组合。多任务学习(Multi-Task Learning)是一种联合学习方法。在这种方法中,模型通过对多个任务进行并行学习,共享表征信息,可以取得比训练单任务更好的表现。此时模型具有更好的泛化能力。
多任务学习的关键在于寻找任务之间的关系。如果多个任务之间的关系搭配恰当,那么不同任务能够提供额外的有用信息,进而可以训练出表现更好、更鲁棒的模型。
6.RLHF
强化学习(Reinforcement Learning,RL)是指通过不断与环境交互、试错,最终完成特定目的或者使得整体行动收益最大化的技术。强化学习不需要标注数据集,但是需要在每一步行动后得到环境给予的反馈,基于反馈不断调整训练对象的行为。
2017年,OpenAI公司和DeepMind公司的研究人员在论文“Deep Reinforcement Learning from Human Preference”中提出基于人类偏好的强化学习概念。研究人员通过实验证明,将非专家标注的少量数据作为反馈,可以提高模型在雅达利游戏中的性能。
2022年,OpenAI公司在InstructGPT模型的训练过程中引入RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。该技术在大模型训练中发挥了巨大作用,有效减少了模型输出中的有害内容,力图实现模型与人类的价值观对齐。RLHF是涉及多个模型和不同训练阶段的复杂技术,这里将其分成3个阶段进行讲解。
第一阶段,OpenAI公司将GPT-3模型作为InstructGPT模型的预训练模型,借助数十名人工标注师为训练数据集中的问题编写预期输出结果(人工编写每个问题的答案),利用标注数据对GPT-3模型进行监督训练。模型首先通过前向推理生成多个输出结果,然后通过人工对模型的输出结果进行打分和排序,并将打分和排序数据用于训练奖励模型(Reward Model)。
第二阶段,目标是训练奖励模型。奖励模型应能评判InstructGPT模型的输出结果是否符合人类偏好。如图5所示,奖励模型接收一系列输入并返回标量奖励,标量奖励与人类的反馈数据共同参与损失函数的计算。在模型的选择上,奖励模型可以是经过微调或根据偏好数据重新训练的语言模型。
第三阶段,采样新的输入句子,首先利用PPO(Proximal Policy Optimization,近端策略优化)网络生成输出结果,然后奖励模型计算反馈,并将结果作用于PPO网络,以此反复,最终训练出与人类价值观对齐的模型。
图5 RLHF训练过程
PPO算法由OpenAI公司于2017年提出,它是一种基于策略的强化学习算法。它将智能体(Agent)当前的状态输入神经网络,可以得到相应的下一步行动(Action)和奖励(Reward),并更新智能体的状态。OpenAI公司的John Schulman等人在一系列基准任务上对PPO算法进行测试,发现该算法比其他算法在样本复杂性、简单性和运行时间上具有更好的平衡性。
2023年,Google公司提出RLAIF(Reinforcement Learning from AI Feedback,基于AI反馈的强化学习)。该技术使用人工智能模型来取代RLHF中的人工标注师。与RLHF相比,模型经过RLAIF训练后,可以在无害内容生成、文本总结等任务上达到与RLHF相近的水平。
7.上下文学习
2020年6月,OpenAI公司在发布GPT-3模型的同时提出上下文学习(In Context Learning)概念。基于上下文学习,模型不根据下游任务来调整参数,而是连接下游任务的输入输出,以此作为提示词引导模型根据测试集的输入生成预测结果。该方法的实际效果大幅超越无监督学习。
8.思维链
思维链(Chain of Thought)最早由Google公司的高级研究员Json Wei等人于2022年提出。思维链是一种离散式的提示学习方法,可以提高模型在复杂任务上的性能。如图6所示,为了指导大模型进行数学运算,研究人员给出少量人工编写的推理示例,并将步骤解释清晰,引导大模型对相似问题进行推理。此处将包含人工编写的详细推理过程的提示词称为思维链提示。思维链可以激发大模型的多步推理能力。这个过程类似于人类通过学习他人的思维方式来进行深度思考以解决复杂任务。
图6 以思维链方法指导模型生成正确答案
9.提示工程
在人工智能领域,尤其是大模型中,提示词对于模型的生成结果和质量具有重要影响。一个好的提示词可以帮助模型更好地理解用户的意图和需求,并生成更加准确、有针对性的回复。所以,也可以将提示工程看作一种优化和改进人工智能模型性能的方法。前面提到的零样本提示和小样本提示都属于提示工程的范畴。这类方法并不涉及对模型参数的修改或重新训练,而是通过特殊设计的提示词引导模型生成更好的结果。
在实际使用中,如果我们需要使模型快速实现特定的任务目标,或者需要以一定的格式生成内容,则可以使用提示工程方法,通过少量样例或具有一定格式的样例引导模型生成内容。与微调相比,提示工程不需要用户拥有大量的人工智能领域专业知识,只需要对特定任务有一定的了解,设计合适的提示文本即可。
四,大模型关键术语
本文根据《大模型导论》张成文著,节选及改编
一、大模型全套的学习路线
学习大型人工智能模型,如GPT-3、BERT或任何其他先进的神经网络模型,需要系统的方法和持续的努力。既然要系统的学习大模型,那么学习路线是必不可少的,下面的这份路线能帮助你快速梳理知识,形成自己的体系。
L1级别:AI大模型时代的华丽登场
L2级别:AI大模型API应用开发工程
L3级别:大模型应用架构进阶实践
L4级别:大模型微调与私有化部署
一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。
以上的AI大模型学习路线,不知道为什么发出来就有点糊,高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
本文转自 https://mp.weixin.qq.com/s/tZVzrebtxOhPDFYoHWrFxQ,如有侵权,请联系删除。