“炼金”高质量数据集:怎么干? 谁来干?(附产业图谱)

高质量数据集是什么?如何建?挑战几何?

在数字经济时代,数据已成为驱动社会运转的核心生产要素。但未经筛选整合的海量数据依然存在数据噪声、非对称性、低完整性等内生问题,难以通过可信利用转化形成可持续的数据价值,只有通过系统性整合才能展现完整图景——这正是数据集(Dataset)的价值所在。一个经过清洗、标注和结构化处理的数据集,不仅是人工智能训练的“养料”,更是构建数字孪生、实现科学发现的基石。

一、数据集:是什么?

数据集,是由一系列数据所组成的集合。在我国针对数据质量管理的国家标准GB/T 36344-2018《信息技术 数据质量评价指标》中,‌将数据集定义为“具有一定主题,可以标识并可以被计算机化处理的数据集合。

数据集是机器学习和统计建模的基础,它提供了算法学习所需的“食材”,是智能应用背后的“智慧源泉。”

中国人民大学科学研究处钱明辉表示,数据集已从传统的“数据集合”概念,演化为驱动人工智能系统构建、训练、部署、进化的基础性资源。无论是支撑AI模型能力提升,还是实现行业应用落地,选择适配场景的数据集类型,构建科学合理的数据结构,都是人工智能工程中不可或缺的基础环节。不同类型的数据集服务于不同的AI需求,其背后反映的是从数据原料到智能系统之间日益紧密的耦合关系。

数据集的特点在于其结构性和规律性。通过表格的形式,数据集能够清晰地展示不同变量之间的关系和模式,为算法提供有序、可处理的数据输入。同时,数据集还具有可扩展性和可更新性,随着新数据的不断加入,数据集可以不断完善和丰富。

业内专家表示,我们可以将数据集比喻为一个图书馆的书籍目录。每一本书都相当于数据集中的一个数据点,而书籍的标题、作者、出版日期等信息则相当于数据集中的变量。通过这个目录,我们可以快速地找到所需的书籍(即数据点),并了解书籍的相关信息(即变量的值)。

数据集产业链:各环节协同

数据集产业链覆盖从数据供给、流通到应用的全生命周期。当前,数据集产业链已形成覆盖“‌采集—存储—处理—应用‌”的闭环,各环节协同推动数据要素价值释放。

在‌数据采集端‌,物联网设备、智能系统等非传统IT渠道贡献了全球90%以上的数据增量,2025年全球数据量预计突破175ZB,中国数据规模年复合增长率达24.9%,增速领先全球。‌存储与管理环节‌,云计算与分布式存储技术加速普及,数据治理工具(如元数据管理、区块链存证)逐步成为企业标配。‌处理与分析层‌,AI与机器学习技术驱动数据处理效率跃升,2025年全球大数据与商业分析市场规模将突破3300亿美元,金融、医疗等领域的数据分析模型已实现规模化应用。

建设高质量数据集的挑战

当前,随着以Deepseek为代表的高效推理大模型快速发展和广泛部署,数据汇聚产量低、供给质量低、利用效率低的矛盾越发突出,高质量数据集建设的重要性日益显现。中国电子信息产业发展研究院院长张立撰文表示,建设高质量数据集是落实《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素×”三年行动计划(2024—2026年)》,推动数据产业和数据标注产业高质量发展,推进“人工智能+”行动的重要抓手。

要构建一个高质量的数据集,需要综合考虑数据来源、数据质量、数据安全、数据标准化、技术复杂性、实时性、数据治理和数据量等多个方面。目前,高质量数据集建设还存在不少挑战。

张立表示,高质量数据集建设面临数据汇聚产量低、数据供给质量低和数据利用效率低“三低”难题。高质量数据储备量低,中文数据规模较小。有关研究表明,应用于人工智能的数据集可能会在2026——2032年间耗尽所有高质量语言数据。数据流通开放力度不足,公共数据获取渠道不畅。数据标注自动化程度不足,数据集产量与数据增速不匹配。2023年,我国数据生产总量达32.85泽字节,同比增长22.44%。然而,当前我国数据标注智能化、专业化程度较低,专业数据处理人员队伍数量缺口较大,数据集产量小,部分专业数据集无法规模化生产,难以满足专业场景需求。

数据集质量良莠不齐,缺乏主流高价值数据引领。数据集混用影响训练效果。有关研究表明,在大模型的基准测试中,相关数据被用于模型训练的情况越来越常见,导致大模型出现部分测试分数虚高、泛化能力下降、不相关任务表现骤降等问题,甚至可能导致大模型在实际应用中产生“危害”。数据集标准不一,各行业主流价值数据集引领带动作用未体现。当前,高质量数据集标准体系待完善,数据质量评估评价缺乏统一标准,政务领域、重点行业缺乏典型的主流价值数据集。数据利用效率低,算法偏见加剧数据遗失,数据要素价值挖掘短板明显。

中国信息通信研究院副院长魏亮撰文表示,一是政府和业界不清楚行业高质量发展需要什么样的数据。一方面,行业大模型数据具有需求多样性的特点。不同行业部门对模型场景数据的需求各不相同,涉及分析、决策和生成不同的任务等需求,这种多样性要求在人工智能高质量数据集建设中,必须深刻理解业务场景。另一方面,行业大模型数据具有需求复杂性的特点。大模型涉及预训练、微调、反馈强化学习等不同阶段,不同阶段都涉及到数据训练构建和优化策略,需要多个数据源、多种数据类型融合对齐,这增加了数据处理和管理的复杂度。

二是行业企业不知道高质量数据集如何构建。构建大模型数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集具有的规模大、多样性足、行业垂直属性强等特点进行针对性的技术研发和适配。但是,行业企业对于数据的理解程度不同,面向大模型的数据治理方法和经验不足,传统的数据处理工具和技术无法满足大模型需求,需要引入先进的数据处理技术和工具提高数据处理效率和准确性。

三是业界不了解行业数据集质量如何评价。不同行业、不同数据源的数据完整性和准确性可能参差不齐,严重影响大模型的训练效果和预测准确性,造成训练资源浪费。此外,训练数据获取往往需要耗费大量时间和经济成本,包括数据收集、清洗、标注等环节。在行业大模型的实际建设中,对于构建和采买的数据没有统一的衡量标准,造成无法有效获取高质量数据集资源。

二、如何建?

高质量数据集的建设并非一蹴而就,而是一个复杂且系统的过程。当前,在顶层设计层面,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通,高质量数据集建设取得积极进展。2025年2月19日,高质量数据集建设工作启动会在北京组织召开,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。下一步,高质量数据集建设工作将积极推进落实“人工智能+”行动,加快推动形成一批标志性成果,赋能行业高质量发展。

综合业内专家建议,高质量数据集建设需遵循“‌场景驱动、质量先行、合规筑基‌”原则,构建覆盖全生命周期的管理体系。

需求锚定,明确应用场景目标,倒推数据维度和质量标准。建立数据需求清单,涵盖数据类型、规模、更新频率。‌数据采集方面,源头控制与多源融合‌。‌采集标准化‌,设备规范化、‌流程可审计。‌数据处理方面,形成工业化标注与质量闭环‌。‌数据管理方面,完善全生命周期治理体系‌。‌生态协作方面,共建共享与价值释放‌。

高质量数据集建设需贯穿“‌需求精准化、采集规范化、处理工业化、管理体系化、应用场景化‌”五大核心逻辑。随着联邦学习、合成数据等技术的成熟,未来数据集生产将向自动化、智能化方向演进,成为驱动数字经济发展的新型基础设施。

(通信产业网)

### 回答1: 您可以通过以下命令来修改log_bin_trust_function_creators变量: SET GLOBAL log_bin_trust_function_creators = 1; 这将允许在二进制日志中记录创建函数的语句。请注意,这可能会导致安全问题,因此请谨慎使用。 ### 回答2: 要修改MySQL的log_bin_trust_function_creators变量,可以按以下步骤进行: 1. 登录到MySQL服务器。可以使用命令行或者MySQL管理工具,如phpMyAdmin等。 2. 执行以下命令来查看当前log_bin_trust_function_creators变量的设置: ```sql SHOW VARIABLES LIKE 'log_bin_trust_function_creators'; ``` 3. 如果结果显示为OFF,则说明当前变量的值为禁用状态。要修改为启用状态,需要编辑MySQL配置文件。 4. 找到并打开MySQL配置文件。在Linux系统上,配置文件通常是my.cnf,位于/etc/mysql目录下;在Windows系统上,配置文件通常是my.ini,位于MySQL安装目录下。 5. 在配置文件中找到[mysqld]节,并在该节下添加或修改以下行: ```sql log_bin_trust_function_creators=1 ``` 6. 保存并关闭配置文件。 7. 重新启动MySQL服务,以使配置变更生效。 8. 再次登录到MySQL服务器,并执行以下命令来确认log_bin_trust_function_creators变量的设置已被修改: ```sql SHOW VARIABLES LIKE 'log_bin_trust_function_creators'; ``` 9. 确认结果显示为ON,即表示变量已成功启用。 请注意,在修改MySQL配置文件之前,应备份原始配置文件,以免修改错误导致系统无法正常运行。同时,修改配置文件可能需要管理员或具有适当权限的用户来执行。 ### 回答3: 要修改log_bin_trust_function_creators变量,可以按照以下步骤进行操作: 1. 确定当前使用的MySQL版本,因为不同版本的MySQL可能在配置文件位置和配置参数名称上有所不同。 2. 找到my.cnf(或my.ini)配置文件所在的位置。在Linux上,它通常位于/etc/mysql/my.cnf或/etc/my.cnf。在Windows上,它通常位于C:\ProgramData\MySQL\MySQL Server 5.x\my.ini。 3. 使用文本编辑器打开该文件,找到[mysqld]部分(如果不存在则在底部创建)。 4. 在[mysqld]部分中,添加或修改以下行以启用或禁用log_bin_trust_function_creators: log_bin_trust_function_creators = 1(启用) 或 log_bin_trust_function_creators = 0(禁用) 如果没有该行,可以直接添加上述代码。 5. 保存文件并关闭文本编辑器。 6. 重启MySQL服务,以使更改生效。在Linux上,可以使用以下命令重启服务: sudo systemctl restart mysql 或 sudo service mysql restart 在Windows上,可以通过服务管理器重启服务。 请注意,修改配置文件可能需要管理员权限。确保在进行任何更改之前备份配置文件,以防意外错误导致数据库无法正常启动。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智前沿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值