一文看遍AI行业大模型_行业大模型l1-CSDN博客

本文链接：https://blog.csdn.net/Aweii__/article/details/140715869

腾讯研究院大模型研究课题组

前言

通用大模型技术快速发展，但很多传统行业推进得并不快。对企业而言，大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况，腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈，做出系统归纳总结，呈现行业大模型发展真实情况，厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业，将拥有大模型的未来。

行业大模型弥合技术与需求差距

1. 大模型引发智能革命

2022年11月30日，OpenAI发布大语言模型（LLM，Large Language Model）ChatGPT，其用户数迅速增长，成为史上发展最快的应用。ChatGPT的爆火揭开了人工智能（AI，Artificial Intelligence）大模型时代的序幕，也预示着AI迈向通用人工智能（AGI, Artificial General Intelligence）的新阶段。目前业界对大模型没有形成明确统一的定义，狭义上可指大语言模型，基于Transformer技术框架；广义上包含了语言、声音、图像、视频等多模态大模型，技术框架也涵盖稳定扩散模型（Stable Diffusion）等。

在大模型出现之前，人工智能通常需要针对特定任务和场景设计专门的算法模型，执行的也是训练数据范围内的单一任务。大模型的突破，关键在于展现出了类人的通用智能“涌现”能力，能够学习多个领域知识、处理多种任务，因此也被称为通用大模型。大模型具备诸多特点。

第一，参数规模大。大模型参数规模远大于传统深度学习模型，呈现规模定律（Scaling Law）特征，即模型性能与模型规模、数据集大小和训练用的计算量之间存在幂律关系，性能随三个因素的指数增加而提高，通俗而言就是大力出奇迹。不过“大”并没有绝对标准。传统模型参数量通常在数万至数亿之间，大模型的参数量则至少在亿级，并已发展到过万亿级。

第二，泛化能力强。大模型能够有效处理多种未见过的数据或新任务。基于注意力机制，通过在大规模、多样化的无标注数据集上进行预训练，大模型能够学习掌握丰富的通用知识和方法，从而在广泛的场景和任务中使用。大模型不需要或者仅需少量特定任务的数据样本，即可显著提高在新任务上的表现能力。

第三，支持多模态。大模型可以实现多种模态数据的高效处理。传统深度学习模型大多只能处理单一数据类型（文本、语音或图像），大模型则可以通过扩展编/解码器、交叉注意力、迁移学习等方式，实现跨模态数据的关联理解、检索和生成。多模态大模型（LMMs，Large Multimodal Models）能够提供更加全面的认知能力和丰富的交互体验，拓宽AI处理复杂任务的应用范围，成为业界探索迈向通用人工智能的重要路径之一。

2. 行业大模型是AI+落地最后一公里

规模定律驱动通用大模型性能不断提升，同时也产生了“不可能三角”问题：专业性、泛化性和经济性三方面很难兼得。

第一，专业性指大模型处理特定领域问题或任务的准确性与效率。专业性要求越高，越需要针对特定领域数据进行训练，可能造成模型过拟合而降低泛化能力。此外，增加的数据收集和训练也会增加成本、降低经济性。

第二，泛化性指大模型处理训练数据集之外新样本的表现能力。大模型泛化性要求越高，越需要多样化的大规模训练数据集、模型参数量也越多，这意味着模型训练和使用成本的增加、经济性降低，同时可能降低模型对特定问题处理的专业能力。

第三，经济性指大模型训练和应用的投入产出比。大模型经济性要求越高，越需要消耗更少的算力资源与成本，满足性能需要，然而降低资源消耗基本上需要采用更小的模型或更少的参数，这又会降低模型的性能表现。通用大模型以发展通识能力为主要目标，更侧重泛化性，在专业性和经济性方面很难充分满足具体行业的特定需求，存在“有幻觉、成本高”等情况。

行业机构采用大模型还有两个关键考量因素：竞争和安全。将数据转化为竞争力是核心驱动。为有效提升竞争力，机构会尽力寻找性能最佳的模型，并利用行业专业数据或私有数据的独特资源，对模型进行定制调整和优化。目前GPT-4等市场头部通用大模型多为闭源，通过网页、APP应用服务大众用户，或以API标准化调用的方式服务开发者，可定制化调整的空间较小。第二，保障安全可控是底线要求。大模型不仅涉及机构私有数据的调用，还会与机构业务、流程结合，这使得大模型使用越深、越需要重视安全可控。通用大模型通常基于公有云提供服务，会造成机构对私有数据、敏感数据安全的担忧。

通用大模型与行业/机构具体需求间存在差距，行业大模型以其诸多优势（见图1），成为弥合差距的必然产物，有效支持各行各业加速落地大模型应用。