高质量数据集是什么?如何建?挑战几何?
在数字经济时代,数据已成为驱动社会运转的核心生产要素。但未经筛选整合的海量数据依然存在数据噪声、非对称性、低完整性等内生问题,难以通过可信利用转化形成可持续的数据价值,只有通过系统性整合才能展现完整图景——这正是数据集(Dataset)的价值所在。一个经过清洗、标注和结构化处理的数据集,不仅是人工智能训练的“养料”,更是构建数字孪生、实现科学发现的基石。
一、数据集:是什么?
数据集,是由一系列数据所组成的集合。在我国针对数据质量管理的国家标准GB/T 36344-2018《信息技术 数据质量评价指标》中,将数据集定义为“具有一定主题,可以标识并可以被计算机化处理的数据集合。
数据集是机器学习和统计建模的基础,它提供了算法学习所需的“食材”,是智能应用背后的“智慧源泉。”
中国人民大学科学研究处钱明辉表示,数据集已从传统的“数据集合”概念,演化为驱动人工智能系统构建、训练、部署、进化的基础性资源。无论是支撑AI模型能力提升,还是实现行业应用落地,选择适配场景的数据集类型,构建科学合理的数据结构,都是人工智能工程中不可或缺的基础环节。不同类型的数据集服务于不同的AI需求,其背后反映的是从数据原料到智能系统之间日益紧密的耦合关系。
数据集的特点在于其结构性和规律性。通过表格的形式,数据集能够清晰地展示不同变量之间的关系和模式,为算法提供有序、可处理的数据输入。同时,数据集还具有可扩展性和可更新性,随着新数据的不断加入,数据集可以不断完善和丰富。
业内专家表示,我们可以将数据集比喻为一个图书馆的书籍目录。每一本书都相当于数据集中的一个数据点,而书籍的标题、作者、出版日期等信息则相当于数据集中的变量。通过这个目录,我们可以快速地找到所需的书籍(即数据点),并了解书籍的相关信息(即变量的值)。
数据集产业链:各环节协同
数据集产业链覆盖从数据供给、流通到应用的全生命周期。当前,数据集产业链已形成覆盖“采集—存储—处理—应用”的闭环,各环节协同推动数据要素价值释放。
在数据采集端,物联网设备、智能系统等非传统IT渠道贡献了全球90%以上的数据增量,2025年全球数据量预计突破175ZB,中国数据规模年复合增长率达24.9%,增速领先全球。存储与管理环节,云计算与分布式存储技术加速普及,数据治理工具(如元数据管理、区块链存证)逐步成为企业标配。处理与分析层,AI与机器学习技术驱动数据处理效率跃升,2025年全球大数据与商业分析市场规模将突破3300亿美元,金融、医疗等领域的数据分析模型已实现规模化应用。
建设高质量数据集的挑战
当前,随着以Deepseek为代表的高效推理大模型快速发展和广泛部署,数据汇聚产量低、供给质量低、利用效率低的矛盾越发突出,高质量数据集建设的重要性日益显现。中国电子信息产业发展研究院院长张立撰文表示,建设高质量数据集是落实《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素×”三年行动计划(2024—2026年)》,推动数据产业和数据标注产业高质量发展,推进“人工智能+”行动的重要抓手。
要构建一个高质量的数据集,需要综合考虑数据来源、数据质量、数据安全、数据标准化、技术复杂性、实时性、数据治理和数据量等多个方面。目前,高质量数据集建设还存在不少挑战。
张立表示,高质量数据集建设面临数据汇聚产量低、数据供给质量低和数据利用效率低“三低”难题。高质量数据储备量低,中文数据规模较小。有关研究表明,应用于人工智能的数据集可能会在2026——2032年间耗尽所有高质量语言数据。数据流通开放力度不足,公共数据获取渠道不畅。数据标注自动化程度不足,数据集产量与数据增速不匹配。2023年,我国数据生产总量达32.85泽字节,同比增长22.44%。然而,当前我国数据标注智能化、专业化程度较低,专业数据处理人员队伍数量缺口较大,数据集产量小,部分专业数据集无法规模化生产,难以满足专业场景需求。
数据集质量良莠不齐,缺乏主流高价值数据引领。数据集混用影响训练效果。有关研究表明,在大模型的基准测试中,相关数据被用于模型训练的情况越来越常见,导致大模型出现部分测试分数虚高、泛化能力下降、不相关任务表现骤降等问题,甚至可能导致大模型在实际应用中产生“危害”。数据集标准不一,各行业主流价值数据集引领带动作用未体现。当前,高质量数据集标准体系待完善,数据质量评估评价缺乏统一标准,政务领域、重点行业缺乏典型的主流价值数据集。数据利用效率低,算法偏见加剧数据遗失,数据要素价值挖掘短板明显。
中国信息通信研究院副院长魏亮撰文表示,一是政府和业界不清楚行业高质量发展需要什么样的数据。一方面,行业大模型数据具有需求多样性的特点。不同行业部门对模型场景数据的需求各不相同,涉及分析、决策和生成不同的任务等需求,这种多样性要求在人工智能高质量数据集建设中,必须深刻理解业务场景。另一方面,行业大模型数据具有需求复杂性的特点。大模型涉及预训练、微调、反馈强化学习等不同阶段,不同阶段都涉及到数据训练构建和优化策略,需要多个数据源、多种数据类型融合对齐,这增加了数据处理和管理的复杂度。
二是行业企业不知道高质量数据集如何构建。构建大模型数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集具有的规模大、多样性足、行业垂直属性强等特点进行针对性的技术研发和适配。但是,行业企业对于数据的理解程度不同,面向大模型的数据治理方法和经验不足,传统的数据处理工具和技术无法满足大模型需求,需要引入先进的数据处理技术和工具提高数据处理效率和准确性。
三是业界不了解行业数据集质量如何评价。不同行业、不同数据源的数据完整性和准确性可能参差不齐,严重影响大模型的训练效果和预测准确性,造成训练资源浪费。此外,训练数据获取往往需要耗费大量时间和经济成本,包括数据收集、清洗、标注等环节。在行业大模型的实际建设中,对于构建和采买的数据没有统一的衡量标准,造成无法有效获取高质量数据集资源。
二、如何建?
高质量数据集的建设并非一蹴而就,而是一个复杂且系统的过程。当前,在顶层设计层面,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通,高质量数据集建设取得积极进展。2025年2月19日,高质量数据集建设工作启动会在北京组织召开,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。下一步,高质量数据集建设工作将积极推进落实“人工智能+”行动,加快推动形成一批标志性成果,赋能行业高质量发展。
综合业内专家建议,高质量数据集建设需遵循“场景驱动、质量先行、合规筑基”原则,构建覆盖全生命周期的管理体系。
需求锚定,明确应用场景目标,倒推数据维度和质量标准。建立数据需求清单,涵盖数据类型、规模、更新频率。数据采集方面,源头控制与多源融合。采集标准化,设备规范化、流程可审计。数据处理方面,形成工业化标注与质量闭环。数据管理方面,完善全生命周期治理体系。生态协作方面,共建共享与价值释放。
高质量数据集建设需贯穿“需求精准化、采集规范化、处理工业化、管理体系化、应用场景化”五大核心逻辑。随着联邦学习、合成数据等技术的成熟,未来数据集生产将向自动化、智能化方向演进,成为驱动数字经济发展的新型基础设施。
(通信产业网)