文章目录
前言
合成数据随人工智能技术跌宕演进,随生成式人工智能发展成为产业和政策热点:从价值上说,合成数据有助于突破人类数据限制,在产业中的使用场景、数量占比和实际效果都远超预期。
四、合成数据的产业特点及发展展望
巨大的模型训练需求和演进动力催生了Nvidia作为算力核心器件企业的成功,训练数据需求是否会拉动数据产业规模成长,并孵化多家创新企业?近期政策部门都期待合成数据能带来数据产业的突破。
(一)合成数据催生创新企业但未见规模业态
在生产式人工智能的极速发展推进下,市场涌现了众多的合成数据企业。包括新诞生的为模型厂商提供合成数据标注服务的Unstructured.io,帮助行业客户将存量数据加工为训练语料的Hazy,为具身智能训练搭建仿真模拟平台的Synthesis AI和光轮智能,还有传统人工数据标准服务转型升级的海天瑞声等。
但根据市场三方报告[4],2023年全球提供合成数据产品和服务的市场规模为3亿美金,即使按照CAGR 45.7%的速度高速增长,2028年的全球市场规模也只有21亿美金。以典型初创企业Hazy来看,2024年预期收入有100%增长,总额约为300万美金,按其A轮融资规模900万美金来看,成功增长后市值或许在3000-4000万美金左右。以我国上市公司海天瑞声来看,2024年训练数据收入或在2500万美金左右,包含大量传统人工标注服务。从市场规模可以看到整体产业规模整体有限,从企业规模来看,按业内10亿年美金经营收入的心理阈值,也不会出现让人瞩目的创新独角兽。
(二)合成数据的供需都具有高度动态性,难以形成专业分工
一项产品或服务能够独立成为产业,需要产业链的上下游推动专业化分工,同时产品或服务能够以标准化、可复用的方式对外提供。专业化分工通过发挥比较优势、交易流通提高资源配置效率,带来规模效应。合成数据产于模型,也用于模型,当前和今后一段时间内都在大模型厂商和科技企业内部“自循环”,难以从技术链路和供需链条中剥离出来规模化成长。
如前文所述,不管是关键能力突破、还是领域知识学习、抑或是帮助具身智能“无中生有”突破数据荒地,合成数据的需求类型和数量都来自于模型,同时模型能力也决定了合成数据的供给,能否做好语料的加工、生成和甄别。从2022年到2023年,合成数据的需求已经从隐私保护快速过渡到模型生成内容的复用,而到了2024年,合成数据的使用类型可以总结,但使用场景已经无法穷举,而且还在快速变化,即使是核心的模型研发人员也不能确认现在的合成数据需求会持续多久。合成数据的需求量级和技术路线都在动态演化,难以精准前置定义需求给到供给方,需求方通常“自产自用”以应对技术的快速迭代。在这种不稳定的供求关系下,难以形成规模化、可持续的交易市场。
(三)合成数据承载大量企业商业秘密,难以流通复用形成规模市场
作为模型或者具身智能训练语料,合成数据生成的格式、质量标准,以及与真实数据的混合配比,都需要训练耗费大量的工程成本进行试错,是不同模型能力差别的重要原因。需要什么合成数据,能够合成什么数据,是对模型训练和应用的方法掌握和工程能力的综合体现,也是技术厂商间竞争的核心壁垒,必然是市场上的“非卖品”;作为行业语料,企业用户将现存数据进行深度加工,但高度重视数据中包含的行业knowhow和反应的企业内部经营状态,较多调用模型接口进行自处理,或者交给合成数据提供商进行“来料加工”,加工成品不会在市场上流通复用。在研究调研中,我们发现能够在市场中作为语料进行流通交易的合成数据集,都已经落后于业界最新水平,而且供方也相对难以证明在版权、隐私方向完全合规。同时,合成数据在也会带来传统人工标准服务的升级迭代,例如数据标注龙头企业Scale AI正在从人力标注为主向合成数据的AI标注转型。
总体来看,合成数据的技术发展具有动态性、同时承载了大量企业商秘,合成数据用于模型研发和应用,其价值最终体现在模型的关键能力指标或其应用场景的表现上,难以单独计算,不会形成规模市场。此外,在市场上存在的合成数据集,由于难以判断数据来源的合法性,交易链条上的合规义务权责界分较为复杂,从而限制合成数据的流通;而合成数据发展必然伴随着对人工标注服务的替代。三者共同决定了合成数据的产业会长期存在、快速变化、但整体规模有限。
五、由合成数据引发的思考
合成数据跟随人工智能技术快速演进,2022年以来随生成式人工智能发展成为产业和政策热点。从价值上说,合成数据突破人类数据的既有限制,在模型训练和应用中的使用场景、数量占比和实际效果都远超预期。从安全上说,合成数据不会带来新的安全问题,也不是“超级智能”逃逸的助力,反而是人类控制风险的抓手。从产业发展说,合成数据难以“独自成席”,对其市场规模和催生的创新企业不适合做过高预期。
合成数据是一个合适的窗口,从中观察到大模型改变了数据的生成方式,更改变了数据的使用方法:过去数据的开发利用,需要分析人员对行业/业务的专业理解,需要开发人员对数据口径的统一定义、对数据接口和链路的开发维护,为数据的安全流通还需要隐私计算等专有设施。但在近期大模型训练和应用中,我们充分体会到,大模型是数据要素价值发挥的最短路径:利用模型对行业数据的“提炼总结”,可以降低开发行业应用的专业门槛,可以简化大量数据开发和维护工作,同时合成数据也能比较好的适应安全合规要求,数据交互不再强依赖隐私计算这样的高成本技术设施。此外,合成数据的价值利用特点使其难以从技术链路和供需链条中单独剥离,因此要以推动大模型研发应用,扩大人工智能可利用数据供给的整体视角看待合成数据的发展。
总结
基于合成数据的价值路径和风险特征,我们可以理解大模型对数据要素价值发挥机制的整体改变。同时,我们也可以思考数据相应政策体系如何顺应极速发展的前沿科技:
第一,合成数据不是合适的政策铆点,抓好大模型自然能促进合成数据;
第二,合成数据不需另起炉灶做安全治理和测试标准,现有数据安全和科技伦理体系下能够应对风险;
第三,合成数据体现了大模型带来的新型数据价值生成路径,数据相应政策体系在落地时需要纳入考虑,制度惯性太强将对新业态新技术产生抑制。