在当今数字时代,数据被视作新时代的石油资源,而大数据模型则是推动这个时代发生变革的核心动力。究竟何为大模型?简单来说,大模型是借助海量数据,运用前沿算法与技术进行训练,最终形成的具备强大预测及决策能力的模型。这类模型在众多领域均彰显出巨大的应用潜力,无论是自然语言处理、图像识别,还是金融风控、智能推荐等领域,都有着亮眼的表现。
大模型概述
1、什么是大模型
大模型AI究竟是什么呢?它是“大数据、大算力与强算法”深度融合的成果,属于人工智能算法的一种,能够借助大数据与神经网络,模拟人类的思维及创造力。该模型运用海量数据和深度学习技术,去理解、生成并预测新内容,一般拥有数百亿甚至数万亿个参数,在不同领域和任务中都能展现出智能特性。
通常所说的大语言模型(LLM),是指包含数百亿及以上参数的语言模型,它们在大量文本数据上进行训练。像国外的GPT-3、GPT-4、PaLM、Galactica和LLaMA,国内的ChatGLM、文心一言、通义千问、讯飞星火等,都属于此类。在这个阶段,计算机的“大脑”规模变得极为庞大,参数数量达到数十亿甚至数千亿,就如同将计算机的运算能力升级到巨型超级计算机级别。这使得计算机在各类任务中表现卓越,有时甚至超越人类的智能水平。
为探究性能极限,众多研究人员致力于训练规模愈发庞大的语言模型,例如拥有1750亿参数的GPT-3以及5400亿参数的PaLM。虽然这些大型语言模型与小型语言模型(如BERT的3.3亿参数、GPT-2的15亿参数)采用相似架构和预训练任务,但它们所展现的能力截然不同,尤其是在处理复杂任务时,表现出惊人的“涌现能力”。以GPT-3和GPT-2为例,GPT-3能够通过学习上下文解决少样本任务,而GPT-2在这方面的能力则较弱。鉴于此,研究界将这类大规模语言模型命名为“大语言模型(LLM)” 。ChatGPT便是LLM的一个杰出应用实例,它是GPT系统LLM在人类对话式应用领域的大胆尝试,交互表现极为流畅自然。
2、LLM的应用和影响
LLM在众多领域产生了深远影响。在自然语言处理领域,它助力计算机更好地理解和生成文本,可用于撰写文章、答疑解惑、语言翻译;在信息检索领域,它优化了搜索引擎,方便用户获取所需信息;在计算机视觉领域,研究人员正借助它推动计算机对图像和文字的理解,以提升多媒体交互体验。尤为关键的是,LLM的出现促使人们重新审视通用人工智能(AGI)实现的可能性。AGI旨在打造能像人类一样思考和学习的人工智能,LLM被视为AGI的早期形态,这引发了人们对未来人工智能发展的诸多思考与规划。
总的来说,LLM是一项令人瞩目的技术,它提升了计算机对语言的理解和运用能力,正在重塑我们与技术的交互方式,也激发了人们对未来人工智能的无限探索。
3、大模型的特点
LLM具备诸多显著特性,吸引了自然语言处理及其他领域研究者的广泛关注,其主要特点如下:
- 规模庞大:LLM参数规模巨大,可达数十亿甚至数千亿,这使其能够掌握丰富的语言知识,理解复杂的语法结构。
- 预训练与微调结合:LLM采用预训练和微调的学习模式。先在大规模无标签文本数据上进行预训练,习得通用语言表示和知识,再通过有标签数据进行微调,以适配特定任务,从而在各类自然语言处理任务中表现优异。
- 强大的上下文感知:LLM在处理文本时,能敏锐感知上下文,理解并生成与前文紧密关联的内容,在对话、文章创作和情境理解等方面优势明显。
- 多语言支持:LLM的应用不局限于英语,可支持多种语言,极大地促进了跨文化、跨语言应用的发展。
- 多模态拓展:部分LLM已拓展至多模态领域,能够处理文本、图像、语音等多种数据类型,实现更丰富多元的应用场景。
- 涌现能力突出:LLM具备独特的涌现能力,即大规模模型展现出小型模型不具备的性能提升,使其能够应对更为复杂的任务和问题。
- 应用领域广泛:LLM已广泛应用于文本生成、自动翻译、信息检索、摘要撰写、聊天机器人、虚拟助手等多个领域,深刻影响着人们的日常生活与工作。
- 存在伦理与风险问题:尽管LLM能力强大,但也带来了一系列伦理和风险挑战,如生成有害内容、侵犯隐私、存在认知偏差等。因此,在研究和应用LLM时需格外谨慎。
综上所述,大语言模型是一种具备强大语言处理能力的技术,在多个领域展现出巨大潜力,为自然语言理解和生成任务提供了有力工具。与此同时,其引发的伦理和风险问题也不容忽视。这些特性使得LLM成为当今计算机科学和人工智能领域重要的研究与应用方向。
4、 大模型的发展历程
人工智能发展历程可分为三个阶段:
- 萌芽期(1950 - 2005年):此阶段以CNN为代表的传统神经网络模型为主导。1956年,计算机专家约翰·麦卡锡提出“人工智能”概念,自此AI发展从最初基于小规模专家知识,逐步迈向基于机器学习的方向。1980年,卷积神经网络的雏形CNN诞生;1998年,现代卷积神经网络的基本结构LeNet - 5出现,使得机器学习方法从早期基于浅层机器学习的模型,转变为基于深度学习的模型。这一转变为自然语言生成、计算机视觉等领域的深入研究奠定基础,对后续深度学习框架的迭代及大模型发展具有开创性意义。
- 探索沉淀期(2006 - 2019年):该时期以Transformer为代表的全新神经网络模型崭露头角。2013年,自然语言处理模型Word2Vec问世,首次提出“词向量模型”,将单词转换为向量,助力计算机更好地理解和处理文本数据。2014年,GAN(对抗式生成网络)诞生,它被誉为21世纪最强大的算法模型之一,标志着深度学习进入生成模型研究新阶段。2017年,Google提出基于自注意力机制的Transformer架构,为大模型预训练算法架构奠定基础。2018年,OpenAI和Google分别发布GPT - 1与BERT大模型,预示着预训练大模型成为自然语言处理领域的主流。在这一探索阶段,以Transformer为代表的全新神经网络架构,显著提升了大模型技术的性能,为大模型算法架构奠定了坚实基础。
- 迅猛发展期(2020年 - 至今):此阶段以GPT为代表的预训练大模型成为焦点。2020年,OpenAI推出GPT - 3,模型参数规模高达1750亿,成为当时最大的语言模型,在零样本学习任务上实现性能飞跃。此后,基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等策略不断涌现,进一步提升模型的推理能力和任务泛化能力。2022年11月,搭载GPT3.5的ChatGPT上线,凭借出色的自然语言交互与多场景内容生成能力,在互联网引发强烈反响。2023年3月,GPT - 4发布,这一超大规模多模态预训练大模型具备多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法深度融合,极大提升了大模型的预训练和生成能力,以及多模态多场景应用能力。例如ChatGPT的成功,便是依托微软Azure强大的算力支持和wiki等海量数据,基于Transformer架构,通过坚持GPT模型及人类反馈的强化学习(RLHF)精调策略而实现的。
5、大模型的分类
按照输入数据类型的不同,大模型主要可以分为以下三大类:
自然语言处理领域的语言大模型(NLP),属于自然语言处理(Natural Language Processing,NLP)范畴,常用于文本数据处理与自然语言理解。其核心特征在于通过在大规模语料库中训练,学习自然语言的语法、语义以及语境规则。像GPT系列(OpenAI)、Bard(Google)、文心一言(百度),都是这类大模型的典型代表。
- 计算机视觉领域的视觉大模型(CV),主要用于图像处理和分析。该类模型借助大规模图像数据训练,能够完成图像分类、目标检测、图像分割、姿态估计、人脸识别等多种视觉任务。例如VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)。
- 多模态大模型,具备处理文本、图像、音频等多种不同类型数据的能力。它融合了自然语言处理(NLP)与计算机视觉(CV)的技术优势,实现对多模态信息的综合理解与分析,从而能够更全面、深入地处理复杂数据。比如DingoDB多模向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。
依据应用领域的差异,大模型主要可划分为L0、L1、L2三个层级:
- 通用大模型L0, 能够在多个领域和任务中通用。它依托强大的算力,运用海量开放数据与拥有巨量参数的深度学习算法,在大规模无标注数据上训练,挖掘数据特征、探寻内在规律,进而形成强大的泛化能力,可在无需微调或仅进行少量微调的情况下,完成多种场景任务,就如同人工智能接受了“通识教育”。
- 行业大模型L1,是针对特定行业或领域构建的大模型。一般会采用行业相关数据进行预训练或微调,以此提升在该领域的性能和准确度,这相当于让人工智能成为了“行业专家”。
- 垂直大模型L2,则是面向特定任务或场景的大模型。通常会使用与任务相关的数据进行预训练或微调,从而增强在该任务上的性能与效果。
常见大模型
LLM的发展历程虽然只有短短不到五年的时间,但是发展速度相当惊人,截止2023年6月,国内外有超过百种大模型相继发布。按照时间线给出了2019年至2023年6月比较有影响力并且模型数量超过100亿的大语言模型,如下图所示:
1、GPT系列
OpenAI公司提出的GPT系列中,2018年的GPT(Generative Pre-Training)模型是典型的生成式预训练语言模型之一。
GPT模型的基本原理是,借助语言建模,把世界知识压缩进仅解码器的Transformer模型里,如此一来,它便能够恢复(或记忆)世界知识的语义,进而充当通用任务的求解器。
它获得成功有两个关键要点:一是训练能够准确预测下一个单词的仅解码器的Transformer语言模型;二是扩展语言模型的大小。总体来讲,OpenAI在大语言模型(LLM)方面的研究大致可分为以下几个阶段。
接下来,我们将从模型规模、特点等方面,介绍大家熟悉的ChatGPT与GPT4:
2、 ChatGPT
2022年11月,OpenAI发布了基于GPT模型(GPT3.5和GPT-4)的会话应用ChatGPT。ChatGPT因在与人类交流方面展现出卓越能力,自发布起便在人工智能社区引发了强烈反响,激发了人们的兴奋之情。
ChatGPT是基于强大的GPT模型进行开发的,其会话能力经过了特别优化。从本质上讲,ChatGPT属于一个LLM应用,它由GPT-3.5和GPT-4开发而来,与GPT-4存在本质差异,且如当前应用界面所呈现的那样,它支持GPT-3.5和GPT-4两个版本。
目前,ChatGPT能够处理最长达32000个字符的内容,其知识的截止日期为2021年9月。它具备多样化的功能,可以执行诸如代码编写、数学问题解答、提供写作建议等多种任务。在与人类的交流方面,ChatGPT展现出了卓越的能力,不仅拥有丰富的知识储备,还具备对数学问题进行推理的技能,能够在多回合对话中精准追踪上下文信息,并且在价值观上与人类安全使用的理念高度契合。此外,ChatGPT引入了插件机制,这一举措进一步拓展了它与现有工具或应用程序交互协作的能力。从目前的情况来看,ChatGPT堪称人工智能发展历程中极为强大的聊天机器人。它的推出,对于未来的人工智能研究意义重大,为深入探索人类人工智能系统提供了宝贵的启示。
3、 GPT-4
GPT-4于2023年3月发布,其实现了从单纯的文本输入扩展到多模态信号输入。GPT3.5拥有1750亿个参数,而GPT4的参数量官方尚未公布,不过相关人员猜测,GPT-4在120层中总共包含了1.8万亿参数,也就是说,GPT-4的规模是GPT-3的10倍以上。由此可见,GPT-4在解决复杂任务方面的能力要比GPT-3.5更强,在众多评估任务中,其性能也有着较大提升。
有一项最近的研究,通过对人为生成的各种困难任务问题进行定性测试,对GPT-4的能力展开了研究,结果表明,GPT-4的性能比之前的GPT模型(如GPT3.5 )更优越。另外,经过六个月的迭代校准(在RLHF训练中加入了额外的安全奖励信号),GPT-4在面对恶意或挑衅性查询时,响应更加安全。
在技术报告中,OpenAI着重强调了GPT-4的安全开发方式,并采取了一些干预策略,用以缓解大语言模型(LLM)可能出现的幻觉、隐私和过度依赖等问题。比如,他们引入了红队评估(red teaming)机制,来减少危害或有毒物质的产生。此外,GPT4是基于完善的深度学习基础设施进行开发的,同时使用了改进的优化方法。值得一提的是,他们还引入了一种新机制——可预测扩展(predictable scaling),这一机制使得在模型训练期间,能够使用一小部分计算来准确预测最终性能。
4、 Claude系列
Claude系列模型由从OpenAI离职的人员所创建的Anthropic公司开发,是闭源的语言大模型。该模型能够执行摘要总结、搜索、协助创作、问答、编码等多种任务。目前,Claude系列有Claude和Claude-Instant两种模型可供用户选择。其中,Claude Instant具有更低的延迟,但性能相对略逊一筹,价格也比完全体的Claude-v1更为低廉。这两个模型的上下文窗口均为9000个token,大约相当于5000个单词,或者15页的内容。
Claude系列模型的目标是打造“更安全”、“危害更小”的人工智能。最早的Claude模型于2023年3月15日发布,并在同年7月11日更新到Claude-2。Claude 2的训练参数官方尚未公开,但外界猜测大约有860.1亿个参数。
Claude系列模型通过无监督预训练、基于人类反馈的强化学习以及Constitutional AI技术(包含监督训练和强化学习)进行训练,旨在提升模型的有用性、诚实性和无害性。值得注意的是,Claude最高支持100K词元的上下文,而Claude-2更是将上下文拓展到了200K词元。与Claude 1.3相比,Claude 2在综合能力上有了显著提升,并且能够生成更长的回复。
总的来说,Claude 2着重提升了以下能力:Anthropic致力于增强Claude作为编码助理的能力,Claude 2在编码基准测试和人类反馈评估方面的性能得到了明显提升。长上下文(long-context)模型在处理长文档、少量提示,以及使用复杂指令和规范进行控制方面具有独特的优势。Claude的上下文窗口从9K token扩展到了100K token(Claude 2已扩展至200K token,但目前发布版本仅支持100K token)。以往的模型经过训练,只能生成相对简短的回答,而许多用户则希望得到更长的输出。Claude 2经过专门训练,可以生成最多4000个token的连贯文档,大约相当于3000个单词。Claude通常用于将冗长复杂的自然语言文档转换为结构化数据格式。Claude 2经过训练后,在生成JSON、XML、YAML、代码和Markdown格式的正确输出方面表现得更为出色。
虽然Claude的训练数据仍以英语为主,但Claude 2训练数据中的非英语数据比例有了明显增加。Claude 2的训练数据涵盖了2022年和2023年初更新的内容,这使得它能够知晓近期发生的事件,但在某些情况下仍可能出现混淆。
5、 PaLM系统
PaLM系列语言大模型是由Google开发的。其初始版本在2022年4月发布,并于2023年3月公开了API。PaLM是基于Google提出的Pathways机器学习系统搭建的,训练数据总量达到780B个字符,内容涵盖了网页、书籍、新闻、开源代码等多种形式的语料。目前,PaLM共有8B、62B、540B三个不同参数量的模型版本。此外,Google还开发了多种PaLM的改进版本。
其中,Med-PaLM是PaLM 540B在医疗数据上微调后的版本,在MedQA等医疗问答数据集上取得了优异成绩。PaLM-E则是PaLM的多模态版本,能够在现实场景中控制机器人完成简单任务。
在2023年5月,Google发布了PaLM 2,不过并未公开其技术细节。根据Google内部文件显示,PaLM 2的参数量为340B,训练数据量大约是PaLM的5倍。作为PaLM(540B)的升级版,PaLM 2能够处理“多语言任务”,它使用了一个覆盖100多种语言的语料库进行训练。
实际上,PaLM2是一系列模型,依据规模可分为Gecko、Otter、Bison和Unicorn。这些模型可以根据不同的领域和需求进行微调,最小的模型能够部署在移动端,最大的参数量仅为14.7B。目前,PaLM 2已被部署在Google的25个产品和功能中,其中包括Bard和Google Worksapce应用。而且,针对不同的领域,PaLM 2还可以演变成专有模型,例如Med-PaLM 2,它是第一个在美国医疗执照考试类问题上展现出“专家”水平的大型语言模型。
PaLM 2具有几大突破点:
- 一是拥有最优的缩放比例(训练数据大小/模型参数量),通过compute-optimal scaling的研究可知,数据大小与模型大小同样重要。根据谷歌的研究,数据和模型大小大致按照1:1的比例缩放时,可以达到最佳性能(过去常认为,模型参数量的大小大致为数据集的3倍更佳);
- 二是其训练数据集并非纯英文语料,而是混合了百种语言,其中包含网络文档、书籍、代码、数学和对话数据等,比用于训练PaLM的语料库大得多。并且研究发现,越大的模型越能够处理更多的非英文数据集,同时包含更高比例的非英语数据,这对于多语言任务(如翻译和多语言问题回答)非常有利,因为模型能够接触到更多的语言和文化,进而学习到每种语言的细微差别。
另外,Bard是Google基于PaLM 2开发的对话应用:
6、 文心一言
百度推出的知识增强语言大模型文心一言,构建于百度文心大模型之上。2023年3月,文心一言在国内率先开启邀测。其基础模型文心大模型自2019年发布1.0版后,持续迭代,目前已更新至4.0版本。文心大模型涵盖NLP大模型、CV大模型、跨模态大模型、生物计算大模型以及行业大模型等多个领域,其中ERNIE系列模型作为NLP大模型的核心,是文心一言得以构建的关键所在。值得一提的是,文心大模型拥有高达2600亿的参数量。
2023年8月31日,文心一言面向全社会全面开放,通过APP、网页版、API接口等多种方式为用户提供服务。在技术层面,文心一言不仅运用有监督精调、人类反馈的强化学习、提示等技术,还具备知识增强、检索增强和对话增强等核心技术。目前,以文心一言为典型代表的大模型,在性能表现上正逐步追赶并超越国外同类最优水平。
在训练方面,文心一言依托飞桨深度学习框架,通过算法与框架的协同优化,大幅提升了训练与推理效率,模型训练速度达到优化前的3倍,推理速度更是达到优化前的30多倍。此外,文心一言还引入插件机制,通过调用外部工具和服务,进一步拓展了大模型的能力边界。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!