大模型的训练与应用 | 四、大模型家族（文心、通义、混元、盘古、豆包）

最新推荐文章于 2025-02-26 22:29:48 发布

大模型本地部署_

最新推荐文章于 2025-02-26 22:29:48 发布

阅读量1.7k

点赞数 26

文章标签：人工智能 agi ai 大模型 AI大模型

本文链接：https://blog.csdn.net/Androiddddd/article/details/140682235

版权

大模型技术在近年来得到了迅猛发展，形成了不同的家族、类别，并在多种应用场景中展现出其强大的潜力和价值。

大模型家族：指的是由同一家公司或组织开发并拥有相似架构和技术基础的一系列大型预训练模型。这些模型通常共享某些核心特性和技术，但在规模、功能和优化方向上可能有所不同，以适应不同的应用需求和场景。

一、百度的文心家族：

百度的文心家族是一个由多个大模型构成的系列，这些模型基于百度的深度学习平台飞桨（PaddlePaddle）开发，覆盖了自然语言处理（NLP）、计算机视觉（CV）和跨模态理解等多个领域。

文心NLP大模型：专注于处理语言相关的任务，包括文本理解、文学创作（如写小说、歌词、诗歌、对联）等。文心NLP大模型通过结合大数据预训练和多源知识，不断吸收新的语言知识，实现模型效果的持续进化。
文心CV大模型：提供基于视觉技术的大模型，利用海量图像和视频数据，为开发者和企业提供视觉基础模型和视觉任务定制能力。
文心跨模态大模型：基于知识增强的跨模态语义理解技术，支持跨模态检索、图文生成、图片文档信息抽取等应用的快速搭建。
ERNIE系列：文心大模型的子系列，包括ERNIE 3.0，这是一个进一步升级的模型，它通过持续学习对百余种不同形式的任务数据学习，实现了任务知识增强，显著提升了模型的零样本/小样本学习能力。
ERNIE-Code：支持100+编程语言的代码大模型，预训练引入代码相关性和依赖关系学习，有效支持项目级代码生成。
文心一言（ERNIE Bot）：百度全新一代知识增强大语言模型，能够与人对话互动、回答问题、协助创作，具备知识增强、检索增强和对话增强的技术优势。
文心ERNIE 3.0 Tiny：轻量级模型，专为端侧压缩部署设计，具有“小”、“快”、“灵”的特点，为端侧设备提供高效的AI模型部署方案。

文心家族的模型已经在百度搜索、信息流、智能音箱等产品中得到应用，并通过百度智能云服务于工业、能源、金融、通信、媒体、教育等行业。

二、阿里巴巴的通义家族：

阿里巴巴的通义家族是一个由阿里巴巴集团自主研发的一系列大模型，旨在为各行各业提供优质的自然语言处理服务，并应对各种复杂的任务挑战。以下是通义家族的详细介绍：

通义千问：是通义家族的初始成员，寓意千万次的问答，象征着对知识的渴求和AI的热情。它是基于《汉书》中的“天地之常经，古今之通义也”，代表着普遍适用的道理与法则。
通义千问2.0：作为通义千问的升级版，2.0版本在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升，综合性能超过了GPT-3.5，并在加速追赶GPT-4 。
通义千问2.5：最新发布的版本，它进一步增强了模型的能力，并且更名为“通义”，意为“通情，达义”，致力于成为人们的工作、学习、生活助手。
通义模型家族：通义家族不仅包括语言模型，还扩展到了多个行业特定的大模型，例如

通义灵码（编码助手）：帮助写代码、读代码、查BUG、优化代码等。
通义智文（阅读助手）：提供长文本提要和概述，支持自由提问解答文章问题。
通义听悟（工作学习）：提供音视频转写、翻译、角色分离、全文摘要等功能。
通义星尘（个性化角色创作平台）：支持情感陪伴、游戏NPC、IP复刻等场景。
通义点金（投研助手）：解读财报研报，分析金融事件，绘制图表。
通义晓蜜（智能客服）：提供全渠道联络中心与AI应用的整体方案。
通义仁心（健康助手）：提供问报告、问症状、问用药、问疾病功能。
通义法睿（法律顾问）：提供法律咨询服务。

开源模型：通义家族积极向开源社区贡献AI模型，包括不同参数规模的模型，如5亿、18亿、40亿、70亿、140亿和720亿参数的模型，已在Hugging Face等平台上获得超过700万次下载量。
百炼平台：阿里云推出的“百炼”(Model Studio)是一个生成式AI开发平台，支持企业用户快速接入和部署通义千问系列大模型，助力企业用户探索AI创新应用。
ModelScope社区：由阿里云发起的中国最大AI模型社区，拥有超过4,000个模型，发展成为一个超过500万活跃开发者的社区。

三、腾讯的混元家族：

腾讯的混元家族是腾讯自研的一系列大型预训练模型，覆盖了自然语言处理（NLP）、计算机视觉（CV）和多模态等多个领域。以下是混元家族的详细介绍：

混元大模型：腾讯混元大模型是由腾讯全链路自研的通用大语言模型，具备强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力。

混元助手：腾讯混元助手小程序于2023年9月6日上线，功能包括AI问答、AI绘画等。
技术架构：腾讯混元大模型技术架构升级为混合专家模型（MoE）架构，参数规模达万亿，擅长处理复杂场景和多任务场景。
多模态能力：混元大模型支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持16秒视频生成。在3D生成方面，腾讯混元已布局文/图生3D，单图仅需30秒即可生成3D模型。
应用场景：腾讯混元大模型将作为腾讯云MaaS服务的底座，客户可以直接通过API调用混元，也可以将混元作为基底模型，为不同产业场景构建专属应用。

混元助手：腾讯混元助手小程序于2023年9月6日上线，功能包括AI问答、AI绘画等。
混元 DiT：腾讯混元文生图大模型（混元 DiT）开源了小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者比较友好。此外，混元 DiT 模型已经部署至 HuggingFaceDiffusers 通用模型库中，用户仅用三行代码即可调用混元 DiT 模型，无需下载原始代码库。
混元 Captioner：腾讯混元团队开源了打标模型“混元 Captioner”，支持中英文双语，针对文生图场景进行专门优化，帮助开发者快速制作文生图数据集。
混元 AI 大模型：在多模态理解领域国际权威榜单 VCR 中登顶，展现了其在多模态理解领域的强大实力。

业务应用：混元 AI 大模型已经广泛应用于腾讯微信搜索、腾讯广告等业务场景，提升了搜索体验和广告推荐精准度。

四、华为的盘古家族：

华为的盘古家族是华为云推出的一系列大型预训练模型，覆盖了自然语言处理（NLP）、计算机视觉（CV）和多模态等多个领域。以下是盘古家族的详细介绍：

盘古大模型5.0：在2024年6月21日的华为开发者大会（HDC 2024）上，华为云CEO张平安正式发布了盘古大模型5.0，该版本在全系列、多模态、强思维三个方面进行了全新升级。
全系列：盘古大模型5.0包含不同参数规格的模型，以适配不同的业务场景：

十亿级参数的Pangu E系列，适用于手机、PC等端侧的智能应用。
百亿级参数的Pangu P系列，适用于低时延、高效率的推理场景。
千亿级参数的Pangu U系列，适用于处理复杂任务。
万亿级参数的Pangu S系列超级大模型，能够帮助企业处理更为复杂的跨领域多任务。

多模态：盘古大模型5.0能够更精准地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面，支持10K超高分辨率；在内容生成方面，采用业界首创的STCG（Spatio Temporal Controllable Generation，可控时空生成）技术，聚焦自动驾驶、工业制造、建筑等多个行业场景，生成更加符合物理规律的多模态内容。
强思维：盘古大模型5.0将思维链技术与策略搜索深度结合，极大地提升了数学能力、复杂任务规划能力以及工具调用能力。
行业应用：盘古大模型在多个行业和场景中发挥着巨大价值，包括自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域。
自动驾驶：盘古大模型5.0通过创新的可控时空生成技术，结合场景视频生成、4D BEV视频生成、自动驾驶仿真库及路网信息，能更好地理解物理规律，生成与实际场景相一致的驾驶视频数据，加速自动驾驶技术的快速成熟。
工业设计：盘古大模型可以大幅缩短汽车造型设计时间，设计师可以通过对话、画图与大模型交互，生成3D汽车数字模型，并进行风格化调整、零部件编辑、颜色更换等。生成的数字模型还可直接输出成3D文件，支持多种主流格式，减少制作油泥模型的轮次，节省成本和时间。
建筑设计：基于盘古大模型的可控生成能力，只需输入设计的黑白草图，即可生成彩色并带有纹理的建筑群360°实景视频；基于盘古3D重建能力，还可以构建出高真实感的建筑3D模型，将复杂建筑群的概念设计周期从数周缩短到数十分钟。
具身智能：盘古大模型能够让机器人完成10步以上的复杂任务规划，并且在任务执行中实现多场景泛化和多任务处理。同时，盘古大模型还能生成机器人需要的训练视频，让机器人更快地学习各种复杂场景。
媒体内容生产：盘古大模型能够将实拍视频快速转换成特定风格的动漫，并保持角色样貌特征前后一致，自动将视频译制成不同语言，并保留原始角色的音色、情感、语气，提升制作效率，实现价值最大化。
铁路领域：结合盘古大模型和巡检机器人，可精准识别动车的项点，覆盖多种复杂故障，帮助高铁提升运营效率，降低成本。
钢铁领域：盘古大模型能够对最优参数进行预测，显著降低热轧生产线调优时间，并提高预测精度和钢板成材率。
气象领域：华为云联合深圳市气象局，升级了区域预报能力，包含气温、降雨、风速等气象要素。
医药领域：天士力基于盘古大模型打造“数智本草大模型”，学习训练了大量文献数据，赋能方剂筛选和优化、提升研发效率，也能辅助医生问诊。