大模型的定义
大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最多的一类——语言大模型(LargeLanguage Model,也叫大语言模型,简称LLM)。
除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有类别在内的大模型合集,被称为广义的大模型。而语言大模型,被称为狭义的大模型。
图1广义大模型的分类
主要突出特点:
- 上下文理解能力:大模型具有更强的上下文理解能力,能够理解更复杂的语意和语境。这使得它们能够产生更准确、更连贯的回答。
- 语言生成能力:大模型可以生成更自然、更流利的语言,减少了生成输出时呈现的错误或令人困惑的问题
- 学习能力强:大模型可以从大量的数据中学习,并利用学到的知识和模式来提供更精准的答案和预测。这使得它们在解决复杂问题和应对新的场景时表现更加出色
- 可迁移性高:学习到的知识和能力可以在不同的任务和领域中迁移和应用。这意味着一次训练就可以将模型应用于多种任务,无需重新训练。
图2大模型具备超大规模参数
大模型的训练过程
大模型的训练数据,是非常庞大的。以GPT-3为例,采用了45TB的文本数据进行训练。即便是清洗之后,也有570GB。具体来说,包括CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词),绝对堪称海量。训练大模型,需要大量的GPU算卡资源。而且,每次训练,都需要很长的时间。
图3 GPU算卡
根据公开的数据显示,训练GPT-3大约需要3640PFLOP·天(PetaFLOP·Days)。如果采用512张英伟达的A100 GPU(单卡算力195 TFLOPS),大约需要1个月的时间。训练过程中,有时候还会出现中断,实际时间会更长。
大模型训练,又分为预训练(Pre-trained)和微调(Fine tuning)两个环节。
图4大模型训练过程图
(1)预训练
在预训练时,我们首先要选择一个大模型框架,例如transformer。然后,通过“投喂”前面说的海量数据,让大模型学习到通用的特征表示。
那么,为什么大模型能够具有这么强大的学习能力?为什么说它的参数越多,学习能力就越强?
可以参考MIT(麻省理工)公开课的一张图:
图5深度学习模型中一个神经元的结构图。
神经元的处理过程,其实就是一个函数计算过程。算式中,x是输入,y是输出。预训练,就是通过x和y,求解W。W是算式中的“权重(weights)”。
权重决定了输入特征对模型输出的影响程度。通过反复训练来获得权重,这就是训练的意义。权重是最主要的参数类别之一。除了权重之外,还有另一个重要的参数类别——偏置(biases)。
参数有很多种类,权重决定了输入信号对神经元的影响程度,而偏置则可以理解为神经元的“容忍度”,即神经元对输入信号的敏感程度。
简单来说,预训练的过程,就是通过对数据的输入和输出,去反复推算最合理的权重和偏置(也就是参数)。训练完成后,这些参数会被保存,以便模型的后续使用或部署。参数越多,模型通常能够学习到更复杂的模式和特征,从而在各种任务上表现出更强的性能。
我们通常会说大模型具有两个特征能力——涌现能力和泛化能力。
当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,会表现出一些未能预测的、更复杂的能力和特性。模型能够从原始训练数据中,自动学习并发现新的、更高层次的特征和模式。这种能力,被称为“涌现能力”。
涌现能力,可以理解为大模型的脑子突然“开窍”了,不再仅仅是复述知识,而是能够理解知识,并且能够发散思维。
泛化能力,是指大模型通过“投喂”海量数据,可以学习复杂的模式和特征,可以对未见过的数据做出准确的预测。
图6参数构成图
参数规模越来越大,虽然能让大模型变得更强,但是也会带来更庞大的资源消耗,甚至可能增加“过拟合”的风险。
过拟合,是指模型对训练数据学习得过于精确,以至于它开始捕捉并反映训练数据中的噪声和细节,而不是数据的总体趋势或规律。说白了,就是大模型变成了“书呆子”,只会死记硬背,不愿意融会贯通。
预训练所使用的数据,我们也需要再说明一下:预训练使用的数据,是海量的未标注数据(几十TB)。之所以使用未标注数据,是因为互联网上存在大量的此类数据,很容易获取。而标注数据(基本上靠人肉标注)需要消耗大量的时间和金钱,成本太高。
预训练模型,可以通过无监督学习方法(如自编码器、生成对抗网络、掩码语言建模、对比学习等,大家可以另行了解),从未标注数据中,学习到数据的通用特征和表示。
这些数据,也不是随便网上下载得来的。整个数据需要经过收集、清洗、脱敏和分类等过程。这样可以去除异常数据和错误数据,还能删除隐私数据,让数据更加标准化,有利于后面的训练过程。
获取数据的方式,也是多样化的。如果是个人和学术研究,可以通过一些官方论坛、开源数据库或者研究机构获取。如果是企业,既可以自行收集和处理,也可以直接通过外部渠道(市场上有专门的数据提供商)购买。
(2)微调
预训练学习之后,我们就得到了一个通用大模型。这种模型一般不能直接拿来用,因为它在完成特定任务时往往表现不佳。这时,我们需要对模型进行微调。
微调,是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的调整,让模型更好的完成特定任务。
图7行业数据类别
微调之后的大模型,可以称之为行业大模型。例如,通过基于金融证券数据集的微调,可以得到一个金融证券大模型。如果再基于更细分的专业领域进行微调,就是专业大模型(也叫垂直大模型)。
一个生动形象的比喻就是:把通用大模型理解为中小学生,行业大模型是大学本科生,专业大模型是研究生。
图8大模型训练过程比喻化
预训练+微调”这种分阶段的大模型训练方式,可以避免重复的投入,节省大量的计算资源,显著提升大模型的训练效率和效果。
预训练和微调都完成之后,需要对这个大模型进行评估。通过采用实际数据或模拟场景对大模型进行评估验证,确认大模型的性能、稳定性和准确性等是否符合设计要求。等评估和验证也完成,大模型基本上算是打造成功了。接下来,我们可以部署这个大模型,将它用于推理任务。
换句话说,这时候的大模型已经“定型”,参数不再变化,可以真正开始干活了。大模型的推理过程,就是我们使用它的过程。通过提问、提供提示词(Prompt),可以让大模型回答我们的问题,或者按要求进行内容生成。
图9大模型整体训练流程图
大模型的机理介绍(以大语言模型为例)
(1)大语言模型是什么?
公式:大模型 = 海量数据 + 深度学习算法 + 超强算力。
其中数据是训练原材料,深度学习算法是计算法则,算力是硬件计算力,大模型是预测模型。
在大语言模型当中,Transformer模型目前位于权重极高的地位。在Transformer架构被提出之前,语言模型的主流架构主要是循环神经网络RNN,其按照顺序逐字处理每一步,输出取决于先前的隐藏状态和当前的输入,要等上一个步骤完成后,才能进行当前的计算。
因此,无法完成并行计算,训练效率低,而且RNN不擅长处理长序列,因为难以捕捉到长距离依赖性的语义关系。接下来,为了捕捉到长距离依赖性,也出现了RNN的改良版本,就是LSTM长短期记忆网络,但是这也并没有解决传统并行计算的问题,而且在处理非常长的序列时也依然受到限制。最后,Transformer腾空出世了,他有能力学习输入序列里所有词的相关性和上下文,不会受到短时记忆的影响。能做到这一点的关键,在于Transformer的自注意力机制。
Transformer于2017年由论文《Attention Is All You Need》提出,摆脱了RNN和CNN对序列的限制,完全依赖“自注意力(Self-Attention)”机制来捕捉序列中任意位置间的相关性,对于大模型来说,Transformer架构具备以下关键优势:
1)并行化: 与RNN需要逐时刻处理序列不同,Transformer在序列长度方向可以大规模并行化训练,显著提升训练速度;
2)长程依赖捕捉: 自注意力可以跨整个序列进行 Token 交互,不存在RNN/CNN的窗口或卷积步长限制;
3)可扩展性: Transformer的模块化设计(多层自注意力 + 前馈网络 + 残差/LayerNorm)易于通过堆叠更多层来增大模型容量,也更易适配分布式并行。
Transformer的基本结构往往包含两个部分:Encoder和Decoder;在最初的机器翻译任务中,Encoder-Decoder结构被广泛使用,而在语言理解及语言生成任务中,通常会使用仅包含Encoder或仅包含Decoder的Transformer,近年比较知名的如BERT(主要是Encoder结构)和GPT系列(主要是Decoder结构)等大模型。
图10 Transformer核心架构图
对于Transformer的自注意力机制,自注意力通常包括以下几步:
输入映射为Q、K、V:将输入向量通过不同的线性变换,得到查询(Query)、键(Key)和值(Value)三组向量。
注意力权重计算公式如下:
多头注意力(Multi-Head Attention):将上述过程拆分为多个“头”,每个注意力头可以关注输入序列中不同子空间的特征,随后再将各头的输出拼接并线性映射回原维度。
凭借该机制,Transformer 能够在每一层、每一个位置上对其他位置的信息进行加权聚合,从而在并行模式下对序列进行更灵活、更广泛的关联建模。
(2)大模型推理:从离线批量到在线服务。
大模型推理涉及离线批量生成和在线实时推理两种模式,前者注重吞吐量,而后者则要求低延迟响应;随着模型规模的增长,如何优化推理效率、降低计算成本、提升并发处理能力成为关键问题,为了满足不同应用场景的需求,研究者们提出了算子优化、模型剪枝、量化、流水线推理等优化方案,以提升推理性能和部署效率。
离线推理与批量生成
当使用大模型进行海量文本或图像生成时,往往不需实时响应,因此可以在云上或本地集群中进行批量推理:
批处理推理的特点: 对延迟要求不高,但需要尽量提升吞吐量;
优化手段: 采用推理加速库(TensorRT、ONNX Runtime等),对模型进行算子融合、量化等。
在线推理与低延迟
对于聊天机器人、搜索推荐等场景需要毫秒级延迟,则在线推理时面临以下挑战:
模型大小:
若模型参数超大,无法放进单个GPU,需要考虑分片推理或模型蒸馏减小体量。
并发扩容:利用容器编排(Kubernetes)来对推理容器进行自动伸缩,以应对流量高峰。
稀疏激活(MoE)推理:如果使用Mixture of Experts,需要在推理阶段进行 Token路由到专家网络,这会增加通信与路由复杂度,需要专门的工程化支持。
推理加速方案:
算子优化: 各大深度学习框架提供针对特定硬件(NVIDIA、AMD、ARM)的算子级优化;
模型剪枝、量化: 如INT8、BF16等,使计算吞吐提升,同时保持精度;
流水线推理:在多卡/多节点间分拆推理工作负载,减少单点存储和通信开销。
(3)分布式数据处理
在大模型的训练和推理过程中,数据处理的效率直接影响模型的性能和可扩展性;由于训练数据通常达到TB到PB级别,传统的数据处理方式已难以满足大规模AI训练的需求,分布式存储、计算和数据流管理成为支撑大模型发展的重要技术体系。
1)大规模数据采集与预处理
在训练大模型前,需要对海量数据进行清洗、格式转换、标注和存储,以确保数据质量和多样性。
分布式数据存储: 采用HDFS、对象存储(S3、OSS、GCS) 进行高效的数据存储和管理,支持训练数据的分布式访问。
分布式计算: 利用Spark、Flink等大数据框架,对大规模文本、图像、语音数据进行分词、去重、去噪、格式转换等处理。
数据质量管理: 采用去重、数据增强等方法,确保模型学习到的内容丰富且无重复,提高泛化能力。
2)分布式数据加载
由于大模型训练涉及数百到数千张GPU,高效的数据加载至关重要。
数据并行加载:采用Data Parallel方式,每个训练节点或GPU 从分布式存储拉取数据,确保计算资源充分利用。
多线程DataLoader:通过PyTorch DataLoader/TensorFlow Data Pipeline进行数据预加载、缓存(Cache)和随机打乱(Shuffle),减少I/O瓶颈,提高数据吞吐量。
高效数据格式:采用Parquet、TFRecord等二进制数据格式,减少存储开销,提高读取效率;针对NLP任务,可使用Tokenized Dataset预处理文本,以减少训练时的重复计算。
3)在线数据流
对于需要持续训练、增量更新的模型,如搜索推荐、个性化AI生成等场景,采用流式数据处理提高系统的适应性。
消息队列(Kafka/Pulsar): 用于实时收集、存储和分发数据流,支持高并发、高吞吐的数据输入。
流式计算(Spark Streaming/Flink):通过实时数据清洗方式过滤无效样本,去重并进行异常检测;通过增量样本更新方式动态添加新数据到训练集中,确保模型能够学习最新的趋势。
结语
大模型(LLM)已在语言、视觉、多模态等领域展现了强大的性能与广阔应用前景,归根结底依赖Transformer架构所提供的自注意力与并行训练机制,理解其工作原理、训练方式与推理流程,对于构建或部署大模型有着至关重要的意义。
而且,随着模型参数从十亿到万亿量级的跃升,研究者在语言、视觉、声学等模态的多任务统一建模上不断拓展边界,大模型已从任务特定的管理模式逐渐进化至统一问答、翻译、文本总结、代码生成甚至多模态感知等复合能力。
在工程层面上,大模型对分布式计算、海量数据处理、算力资源与系统维护都提出了新的高度要求,需要开发者具备系统化、端到端的思维来应对训练、推理和版本管理等挑战;面向未来,大模型将进一步走向跨模态融合、多任务统一、可解释与安全合规等方向,为各行业创造更全面、灵活且智能的AI解决方案。
解决DeepSeek服务器繁忙的问题:
随着国产大模型DeepSeek的热度激增,其访问压力带来的使用痛点逐渐显现:官方网站常规时段难以稳定访问且对话次数受限。值得庆幸的是,因其开源的开放属性,目前市面上涌现了大量集成该模型的第三方平台与服务项目。在此为大家整理若干宣称接入了完整功能版本的优质替代方案,建议收藏备用(技术达人可通过B站教程进行本地部署,但需注意顶尖显卡等硬件配置要求较高,对普通用户并不友好)。
案例①
首批接入成果展示 行业龙头腾讯再次展现出其敏锐的技术嗅觉,旗下智能助手"元宝"率先完成了与DeepSeek完整版的系统级整合。依托腾讯云强大的分布式计算资源,有效克服了源站服务器负载过载引发的响应延迟难题。更值得关注的是该项服务叠加的多维度创新:在基础对话功能之外,巧妙融入微信公众号生态圈及视频号体系下的垂直优质内容,通过实时联网检索实现了信息服务能力的层层升级,堪称技术赋能场景的标杆级合作案例。
网页端:
https://yuanbao.tencent.com/
APP:
应用商店下载腾讯元宝即可
案例②
在多模型聚合平台中,AskManyAI凭借DeepSeek-R1全功能版本的深度整合脱颖而出。经过连续性测试验证,其响应质量与官方版本高度一致:不仅完整保留多轮逻辑对话能力,更搭载突破性的联网检索模块,服务器稳定性尤为突出(需关注免费账户存在额度限制,高频使用者可考虑订阅服务升级权限)。值得拓展的是,该站点兼容其他AI工具生态,用户可根据需求探索多元智能解决方案。
网站邀请注册链接:
https://dazi.co/login?i=e54ef499
案例③
2月10日,迅飞开放平台的官方渠道发布重要更新,宣布DeepSeek-V3与DeepSeek-R1双模型系统正式对开发者开放。本次升级不仅支持云端API接入服务,还新增企业级定制模型快速配置功能(流程简化至一键操作)。在技术底层,平台创新采用混合云架构,配合智能分流机制与容灾恢复系统实现动态响应。依托全天候运维支持体系,其商用系统可用性达到企业级99.97%标准(SLA协议指标),持续为开发者提供DeepSeek全系模型的高可用服务方案,确保操作流程的无缝衔接与运行顺畅。
网页端:
https://training.xfyun.cn/modelSquare
案例④
知乎问答功能升级速览 知乎直答近期完成技术升级,适配的DeepSeek-R1模型功能引发热议。如上方AI生成的趣味玩梗所示——"人在漠北,统率飞船,应邀速答,领域精通"(圈内自然秒懂这经典行文风格),平台技术整合特色尽显。
值得注意的是,当前DeepSeek-R1模型已完成多平台部署。用户在知乎直答网页端及移动应用程序中,不论是日常信息检索还是行业专业查询,均可手动启用该模型进行智能化搜索和问题解析。特别说明:首个示范案例实为算法自动产出的网络热梗演绎。
网页端
https://zhida.zhihu.com/
案例⑤
头部应用|秘塔搜索技术演进
作为首批引入DeepSeek-R1智能推理架构的应用平台,秘塔AI搜索在农历迎财神节(正月初五)官宣完成全量技术部署。产品深度融合该模型完整性能参数,叠加平台积淀的超百亿级全网实时热源数据和逾四千万专业文献资源库,旨在为用户打造更智能的工作学习辅助工具。注:该技术方案目前已实现对模型原生运算能力的完整调用。
网页端
https://metaso.cn/
技术驱动|DeepSeek应用生态爆发
持续增长的合作机构名单已难以穷举,从上市企业到初创工作室均在深度整合DeepSeek智能框架以构建技术护城河。值得关注的是,头部社交平台产品亦加入部署行列,印证了开源架构的商业转化潜力。技术社区已系统性梳理目前国内采用该模型的技术服务矩阵,该索引库保持小时级迭代频率,链接如下!
表格地址:
https://datakhazix.feishu.cn/wiki/TUWtwM8jIib6MGk63wQcGj7RnBh