“炼金”高质量数据集：怎么干？谁来干？（附产业图谱）

最新推荐文章于 2025-05-13 16:10:00 发布

数智前沿

最新推荐文章于 2025-05-13 16:10:00 发布

阅读量2k

点赞数 20

分类专栏：数字化转型文章标签：大数据数据集数字经济

本文链接：https://blog.csdn.net/daobaqin/article/details/147727613

版权

数字化转型专栏收录该内容

51 篇文章

订阅专栏

高质量数据集是什么？如何建？挑战几何？

在数字经济时代，数据已成为驱动社会运转的核心生产要素。但未经筛选整合的海量数据依然存在数据噪声、非对称性、低完整性等内生问题，难以通过可信利用转化形成可持续的数据价值，只有通过系统性整合才能展现完整图景——这正是数据集(Dataset)的价值所在。一个经过清洗、标注和结构化处理的数据集，不仅是人工智能训练的“养料”，更是构建数字孪生、实现科学发现的基石。

一、数据集：是什么?

数据集，是由一系列数据所组成的集合。在我国针对数据质量管理的国家标准GB/T 36344-2018《信息技术数据质量评价指标》中，‌将数据集定义为“具有一定主题，可以标识并可以被计算机化处理的数据集合。

数据集是机器学习和统计建模的基础，它提供了算法学习所需的“食材”，是智能应用背后的“智慧源泉。”

中国人民大学科学研究处钱明辉表示，数据集已从传统的“数据集合”概念，演化为驱动人工智能系统构建、训练、部署、进化的基础性资源。无论是支撑AI模型能力提升，还是实现行业应用落地，选择适配场景的数据集类型，构建科学合理的数据结构，都是人工智能工程中不可或缺的基础环节。不同类型的数据集服务于不同的AI需求，其背后反映的是从数据原料到智能系统之间日益紧密的耦合关系。

数据集的特点在于其结构性和规律性。通过表格的形式，数据集能够清晰地展示不同变量之间的关系和模式，为算法提供有序、可处理的数据输入。同时，数据集还具有可扩展性和可更新性，随着新数据的不断加入，数据集可以不断完善和丰富。

业内专家表示，我们可以将数据集比喻为一个图书馆的书籍目录。每一本书都相当于数据集中的一个数据点，而书籍的标题、作者、出版日期等信息则相当于数据集中的变量。通过这个目录，我们可以快速地找到所需的书籍(即数据点)，并了解书籍的相关信息(即变量的值)。

数据集产业链：各环节协同

数据集产业链覆盖从数据供给、流通到应用的全生命周期。当前，数据集产业链已形成覆盖“‌采集—存储—处理—应用‌”的闭环，各环节协同推动数据要素价值释放。

在‌数据采集端‌，物联网设备、智能系统等非传统IT渠道贡献了全球90%以上的数据增量，2025年全球数据量预计突破175ZB，中国数据规模年复合增长率达24.9%，增速领先全球。‌存储与管理环节‌，云计算与分布式存储技术加速普及，数据治理工具(如元数据管理、区块链存证)逐步成为企业标配。‌处理与分析层‌，AI与机器学习技术驱动数据处理效率跃升，2025年全球大数据与商业分析市场规模将突破3300亿美元，金融、医疗等领域的数据分析模型已实现规模化应用。

建设高质量数据集的挑战

当前，随着以Deepseek为代表的高效推理大模型快速发展和广泛部署，数据汇聚产量低、供给质量低、利用效率低的矛盾越发突出，高质量数据集建设的重要性日益显现。中国电子信息产业发展研究院院长张立撰文表示，建设高质量数据集是落实《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素×”三年行动计划(2024—2026年)》，推动数据产业和数据标注产业高质量发展，推进“人工智能+”行动的重要抓手。

要构建一个高质量的数据集，需要综合考虑数据来源、数据质量、数据安全、数据标准化、技术复杂性、实时性、数据治理和数据量等多个方面。目前，高质量数据集建设还存在不少挑战。

张立表示，高质量数据集建设面临数据汇聚产量低、数据供给质量低和数据利用效率低“三低”难题。高质量数据储备量低，中文数据规模较小。有关研究表明，应用于人工智能的数据集可能会在2026——2032年间耗尽所有高质量语言数据。数据流通开放力度不足，公共数据获取渠道不畅。数据标注自动化程度不足，数据集产量与数据增速不匹配。2023年，我国数据生产总量达32.85泽字节，同比增长22.44%。然而，当前我国数据标注智能化、专业化程度较低，专业数据处理人员队伍数量缺口较大，数据集产量小，部分专业数据集无法规模化生产，难以满足专业场景需求。

数据集质量良莠不齐，缺乏主流高价值数据引领。数据集混用影响训练效果。有关研究表明，在大模型的基准测试中，相关数据被用于模型训练的情况越来越常见，导致大模型出现部分测试分数虚高、泛化能力下降、不相关任务表现骤降等问题，甚至可能导致大模型在实际应用中产生“危害”。数据集标准不一，各行业主流价值数据集引领带动作用未体现。当前，高质量数据集标准体系待完善，数据质量评估评价缺乏统一标准，政务领域、重点行业缺乏典型的主流价值数据集。数据利用效率低，算法偏见加剧数据遗失，数据要素价值挖掘短板明显。

中国信息通信研究院副院长魏亮撰文表示，一是政府和业界不清楚行业高质量发展需要什么样的数据。一方面，行业大模型数据具有需求多样性的特点。不同行业部门对模型场景数据的需求各不相同，涉及分析、决策和生成不同的任务等需求，这种多样性要求在人工智能高质量数据集建设中，必须深刻理解业务场景。另一方面，行业大模型数据具有需求复杂性的特点。大模型涉及预训练、微调、反馈强化学习等不同阶段，不同阶段都涉及到数据训练构建和优化策略，需要多个数据源、多种数据类型融合对齐，这增加了数据处理和管理的复杂度。

二是行业企业不知道高质量数据集如何构建。构建大模型数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集具有的规模大、多样性足、行业垂直属性强等特点进行针对性的技术研发和适配。但是，行业企业对于数据的理解程度不同，面向大模型的数据治理方法和经验不足，传统的数据处理工具和技术无法满足大模型需求，需要引入先进的数据处理技术和工具提高数据处理效率和准确性。

三是业界不了解行业数据集质量如何评价。不同行业、不同数据源的数据完整性和准确性可能参差不齐，严重影响大模型的训练效果和预测准确性，造成训练资源浪费。此外，训练数据获取往往需要耗费大量时间和经济成本，包括数据收集、清洗、标注等环节。在行业大模型的实际建设中，对于构建和采买的数据没有统一的衡量标准，造成无法有效获取高质量数据集资源。

二、如何建？

高质量数据集的建设并非一蹴而就，而是一个复杂且系统的过程。当前，在顶层设计层面，国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》，强化场景需求牵引，带动数据要素高质量供给、合规高效流通，高质量数据集建设取得积极进展。2025年2月19日，高质量数据集建设工作启动会在北京组织召开，国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。下一步，高质量数据集建设工作将积极推进落实“人工智能+”行动，加快推动形成一批标志性成果，赋能行业高质量发展。

综合业内专家建议，高质量数据集建设需遵循“‌场景驱动、质量先行、合规筑基‌”原则，构建覆盖全生命周期的管理体系。

需求锚定，明确应用场景目标，倒推数据维度和质量标准。建立数据需求清单，涵盖数据类型、规模、更新频率。‌数据采集方面，源头控制与多源融合‌。‌采集标准化‌，设备规范化、‌流程可审计。‌数据处理方面，形成工业化标注与质量闭环‌。‌数据管理方面，完善全生命周期治理体系‌。‌生态协作方面，共建共享与价值释放‌。

高质量数据集建设需贯穿“‌需求精准化、采集规范化、处理工业化、管理体系化、应用场景化‌”五大核心逻辑。随着联邦学习、合成数据等技术的成熟，未来数据集生产将向自动化、智能化方向演进，成为驱动数字经济发展的新型基础设施。

（通信产业网）