大模型时代下的数据标注：百亿市场规模，百万就业缺口

本文链接：https://blog.csdn.net/m0_59235945/article/details/139011808

大模型时代下的数据标注

数据标注，是将原始数据进行加工处理，比如分类、拉框、注释、标记等操作，转换成机器可识别信息的过程。

国内数据标注厂商，广义也被叫做基础数据服务商，通常需要完成数据集结构/流程设计、数据处理、数据质检等工作，为下游客户提供训练数据集、定制化服务。这也是本次主要研究对象。

大模型时代到来，数据标注受到前所未有的关注。

上市公司股价狂飙，创业代表公司融资加速。

国内唯一一家AI数据上市公司海天瑞声受到ChatGPT热潮，今年2月以来股价曾一度狂飙。创业公司也同样融资进展频频，包括像星尘数据、标贝科技、整数智能、柏川数据、曼孚科技、恺望数据等代表公司均获得新融资。

大模型数据解决方案多处开花，以一站式、定制化服务为主

围绕大模型开发全生命周期(包括预训练、监督微调、RLHF、基准测试等)，专业数据服务商、大模型企业、AI公司等各方都拿出相关数据解决方案。

大模型范式涌入数据标注，自动化标注⻔槛大幅降低

以「Segment Anything」为代表的图像分割模型开源，可通过提示词对图像或视频中任意对象进行分割，并可扩展到任何新任务和新领域，被称为是CV领域的「GPT-3」时刻，大大降低了图像领域的标注门槛。

智能驾驶新感知范式，BEV+Transformer是机遇也是挑战

作为最具代表性应用场景，智能驾驶迎来新感知范式——

以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的二维感知方案，给数据服务厂商带来更多机遇与挑战，包括不限于标注场景难度大、数据量产能力要求高等。

在这里插入图片描述

四大关键变化

需求变化：与行业场景强相关，高质量数据需求长期且持续

大模型时代的到来，正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。

在这里插入图片描述
大模型作为以数据为中心的产物，数据数量和质量很大程度决定着大模型能力的上限。尤其像训练流程中的后两个阶段，直接决定了大模型性能好坏——

需要专业人士生成数据或对数据进行改写或排序，最终形成符合人类标准(比如专业逻辑、核心价值观等)高质量数据。

在这里插入图片描述
处理流程侧变化：标准从客观到主观，高学历多领域成人才硬指标

从数据流程上来看，传统数据标注是以目标任务为导向，通过拉框、描点、转写等方式进行人工或自动化标注，评价标准主要以准确率和效率为指标。

而大模型数据标注，则是按照阶段来划分，通常对自然语言要求很高，需要更专业的人才参与，标注要求偏主观，难以形成统一的标准。

数据标注从劳动密集朝着知识密集型转变。

在这里插入图片描述
其中像百度在海口专为大模型建设的数据标注基地，本科比例100%，培训专业人才已达1000人。未来五年，数据标注相关专业人才缺口将达百万量级。

业务变化：合成数据新衍生赛道，潜在市场空间巨大

合成数据作为新衍生赛道，正受到广泛关注。所谓合成数据，即是用AI生成数据而非真实产生，能够替代真实数据来训练、测试和验证大模型。OpenAI CEO Sam Altman曾方言：

未来所有数据都将变成合成数据。

除了能降本增效外，它可以补充更多边缘、长尾场景数据，能有效解决大模型时代下的“数据鸿沟”，并自然规避掉数据隐私安全、合规等方面问题。

像在数据增强、模型验证、可解释AI等领域，以及自动驾驶、机器人、生物医药等领域都有相关应用。

预计，合成数据将成为未来增速最快赛道，年增⻓率可达45%。

在这里插入图片描述
供应链变化：产业链重新洗牌，大模型公司/AI企业涌入

大模型公司/AI企业自建数据处理管线，并对外输出大模型数据解决方案，产业链重新洗牌。

部分厂商还具备云服务能力，可与数据服务打包输出，能有效建立起客户之间的口碑和信任。

在这里插入图片描述

三大影响因素：以技术+场景聚合的飞轮效应

一看技术能力

作为AI底层服务，数据标注最本质的就是为下游客户降本增效。而技术是降本增效的最优解决路径，持续迭代技术能力的企业将有机会脱颖而出。

包括不限于以下几点：数据闭环工具链的智能化水平、对大模型/AI算法的理解、数据工程化能力、基础设施建设等。

二看场景资源

场景资源能力主要包括数据和人才两个层面：高质量的场景数据以及场景人才（领域专家、深度用户等）

这与行业持续多年的深耕不无关系——企业懂得行业know-how，能够根据客户需求，快速找到并利用与场景最为贴合的数据和人才资源。

三看飞轮效应

数据标注仍具有飞轮效应。以往靠销售渠道、人力成本等驱动因素，服务商实现业务量增长，进而赢得市场获得口碑，获得新客户也会越来越容易。

在这里插入图片描述
如今在技术和场景资源能力双重驱动下，数据处理能力越强，大模型标注经验越丰富，落地案例越来越多，数据处理的可扩展性和灵活性也越高。

在这里插入图片描述
这样一来，新创业公司入局门槛将进一步提高，专业数据服务提供商更多机会将在垂直场景，帮助企业完成私有化部署。

国内基础数据服务百亿市场规模

数据标注行业传统依靠渠道、人力等形成的低成本优势将被重塑，数据需求方将更看重数据质量、场景多样性和可扩展性。基于以上原因，量子位智库将从数据基础设施、场景资源两个方面来分析国内市场分布及现状。

第一象限：有技术有场景的明星公司

该象限存在两种情况：

第一种是模型层公司本身有大模型技术范式以及场景落地经验积累，可快速输出数据解决方案，与云服务打包输出建立信任;

第二种则是主要以技术驱动的明星企业，大部分拥有数据闭环工具链，再结合几年来行业经验，在大模型浪潮下易受到企业用戶⻘睐。

第二象限：有强技术支撑的创业新势力。

该象限主要聚焦在近两年创立的创业公司，主要以自动驾驶场景作为切入点，再覆盖到AIGC及其他领域。他们饱受资本市场认可，以恺望数据为例，一年半时间就是完成了三轮融资。

第三象限：包括中小团队、企业自建数据管线等。

第四象限：场景壁垒更为深厚的行业玩家

该象限着更为深厚的行业数据壁垒，可为下游用戶提供高质量数据集或拥有大模型数据标注团队，以海天瑞声为例，不仅是LIama2的唯一中国伙伴，还发布超大规模中文多轮对话数据集DOTS-NLP-216，合作企业超810家，覆盖全球近200个主要语种及方言，有近20年行业深耕。

在这里插入图片描述
数据标注处于重新洗牌的时期，更高质量、专业化的数据标注成为刚需。

在这里插入图片描述
未来五年，国内AI基础数据服务将达到百亿规模，年复合增长率在27%左右。

在这里插入图片描述
以下为我国值得关注的行业代表机构TOP20：

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述