人工智能测试数据集构建指南丨如何构建高质量的AI测试数据集？

最新推荐文章于 2024-08-15 14:41:52 发布

daopuyun

最新推荐文章于 2024-08-15 14:41:52 发布

阅读量1k

点赞数 28

文章标签：人工智能

本文链接：https://blog.csdn.net/daopuyun/article/details/140870801

版权

构建和维护高质量测试数据集是人工智能系统测试的关键。如何构建人工智能测试数据集，以及如何确保测试数据集的质量是人工智能测试中的一个难点，很多人对人工智能测试数据集构建流程和评价标准都不甚了解。本文我们将从人工智能测试数据集的评价标准与构建流程方面，为大家介绍人工智能测试数据集构建的关键步骤，一起探讨如何构建一个高效、可靠的人工智能数据集

一、什么是人工智能测试数据集？

在探讨人工智能测试数据集的构建流程之前，我们首先需要明确人工智能测试数据集的概念。

在开发和训练人工智能系统的过程中，数据集被划分成了不同的部分，测试集就是其中之一。在人工智能测试过程中，测试数据集是用于评估和验证人工智能系统性能的一组数据样本集合，通常包含了各种类型的输入数据，以及与之对应的正确输出或标签。

二、高质量的人工智能测试数据集有什么特点？

明确了人工智能测试数据集的概念之后，我们会产生这样的疑问，要收集怎样的测试数据？什么样的人工智能测试数据集才能被称之为“优秀”呢？这就需要我们建立一套全面、科学的评价体系，以便对后续的构建流程提供指导、对构建好的测试数据集进行客观评估。

评价测试数据集的优劣，一般从以下两个层面入手：

1. 数据质量评价

代表性:测试数据集应该代表真实世界的数据分布。这意味着它应该反映目标用户群体的特征，以及真实数据的各种偏差和噪声。

一致性：检查数据集中同一数据字段的不同取值是否存在冲交和矛盾。测试数据集的标注应该是一致的，并且与训练数据集的标注保持一致。

准确性：数据的准确性包括影像质量、标注的准确性以及数据预处理的质量。图像的裁剪、旋转或缩放不当等都可能导致数据失真，影响测试数据质量。因此，需要检查测试数据集中数据的取值是否准确地描述了对象属性。

规范性：检查数据集说明及数据集字段的描述是否形成元数据文档、元数据文档是否满足相关元数据规范要求。

完整性：检查数据集信息及数据集字段是否缺失。测试数据集应全面覆盖所有预期的使用场景和用户输入的多样性，包括常见的、罕见的以及异常的情况。

可访问性：查看数据集是否可获得、数据集的访问方式、是否明确授权等。

2.数据表现评价

准确率、精准率、召回率、决定系数、分类适确性等：将待评价数据集作为通用人工智能模型的测试数据集，通过模型评价指标测试，对比数据集应用效果。

疏密度：检测数据集中某项数据中缺失数据和空数据的占比。

集中度：检测数据集中某项数据的数值平均数和位置平均数，评价数据分布的集中度。

离散度：检测数据集中某项数据的方差、分位差等，评价数据分布的离散度。

人工智能测试数据集的评价标准不仅涉及到技术的先进性，还包括实际应用的适用性。评价标准的制定还需与AI模型开发团队密切合作，涵盖业务需求、实践应用、行业规范及法律法规等要求。

三、如何构建高质量的人工智能测试数据集？

了解了人工智能测试数据集的概念和评价标准之后，我们便可以开始着手构建测试数据集了。构建人工智能测试数据集是一个复杂而精细的过程，涉及多个关键步骤。

为了实现针对特定行业和业务的有效测试，测试数据集往往根据AI系统的检测需求和实际应用场景进行定制化构建。随着医疗AI辅助诊断产品的临床价值逐渐被验证，多参数辅助监测诊断、影像类辅助诊断等领域多款软件处于研发或上市，AI医学影像赛道的竞争不断加剧，智能医疗行业发展势头迅猛。

AI医学影像赛道企业图谱图片来源：亿欧智库

因此，我们不妨以人工智能医疗器械测试为例，了解下构建人工智能测试数据集的具体流程。

1. 需求分析

调研用户需求：了解人工智能医疗器械在实际诊断和治疗中的应用流程，分析医学决策支持系统、智能诊断系统等智能系统在病例分析、病情预测等方面的具体需求。通过调研医疗机构、医生、患者各方，了解人工智能医学产品在实际使用中可能遇到的问题和挑战，指导测试数据集的设计。

明确测试目标和范围：与研发团队进行深入沟通，明确测试的具体目标和范围。测试目标可能包括评估人工智能系统在特定疾病诊断、病例分析或病情预测方面的性能。测试范围可能涉及特定的医学领域、数据类型或应用场景。明确目标与范围有助于我们为后续数据集的构建提供明确的方向。

分析数据需求与特点：根据测试目标与范围，分析所需数据的需求与特点。这包括数据的类型（如文本、图像、视频等）、格式、来源以及质量要求。对于图像识别类的医学测试，我们需要收集高分辨率、标注准确的医学影像数据。对于自然语言处理类的测试，则需要收集大量经过专业处理的医学文本数据。

2. 收集数据

收集数据特别是医疗数据的过程中面临诸多问题。一方面，医疗数据获取难度大，医院系统往往有严格的数据访问权限和保密机制，这使得第三方难以获取到这些临床数据；其次，医疗数据具有高度的敏感性和隐私性，需要严格遵守相关法律法规和伦理规范；另一方面，医疗数据的来源和质量参差不齐，不同医疗机构之间的数据格式和标准可能存在差异，需要进行统一的数据预处理和标准化操作。

当前，收集人工智能医疗器械测试数据的渠道主要包含以下几类：

测试方提供：在人工智能医疗器械开发过程中，医疗器械设计方会提供一定量的标注数据作为测试使用。

医疗领域相关实体：与医院、诊所等医疗机构、药物研发等企业、医疗健康类APP合作，收集医学图像、病例记录、医疗文献等数据。这具有一定难度，通常需要签订严格的保密协议和数据使用协议。

第三方测试机构生成：测试团队或机构利用自动化测试数据生成工具、前文提到的对抗样本生成等技术，补充稀缺的数据样本。

医用AI模型检测系统对抗样本生成

开源数据集：人工智能技术的创新发展和应用离不开数据集这个核心要素。利用数据集如Kaggle、Google Dataset Search、UCI机器学习数据集库、AWS数据库、阿里云天池数据集等构建测试数据集是常用方法之一。

网络资源：通过公开的数据集、学术研究、医疗论坛等网络资源收集数据。需要注意的是，即使是在网络公开的数据集，也要确认其使用许可和隐私政策。

政府及研究机构：政府卫生部门、科研机构发布的公开医疗数据。

鉴于医学人工智能产品服务的用户需求纷繁复杂、差异性显著，单一的病种数据集难以全面满足多目标、多用途产品的检测需求。未来迫切需要建立一套统一的基础测试数据集管理体系，以针对不同产品生成具体化的测试数据，调和医学数据模块通用性与测试数据集专用性之间的矛盾，确保AI医疗等人工智能系统测试的精准性。

3.数据清洗

数据清洗涉及到去除数据集中的噪声、异常值、重复数据和不一致性，确保数据的质量和准确性。例如，通过滤波、平滑或阈值处理去除数据中的噪声，去除一些无用的信息，如个人信息、隐私数据等，纠正数据中录入错误、格式错误等错误。而图片数据很难精准过滤，因此需要大量的人工筛选工作。

4.数据标注

人工智能测试数据集中的数据标注是一个关键步骤，直接影响着数据的应用效果和测试效果。由于医疗数据复杂，标注规则可能不一致，因此，数据标注是一个专业且复杂的任务，往往需要具备医学背景的专业人员来理解和正确标注数据，以提供最准确的训练和测试数据。常用的人工智能医疗器械测试数据集的数据标注方法有：

专家标注：邀请医学专家利用知识和经验对收集的数据进行精确标注，如病变区域的标注、病种的分类、治疗方案的推荐等。

半自动化标注：利用已有的医学知识库和算法自动进行标注，可以通过机器学习模型，如分类、检测或segmentation模型来自动标注数据，然后由专家进行校对和调整。

外部人员标注：对众包、测试员等人员进行培训，将标注工作分发给外部人员，适用于数据量大且标注任务相对简单的情况。

需要注意的是，医疗数据标注通常需要大量的人力和时间，测试机构应该合理规划预算和时间。测试机构不仅要制定明确的标注标准和指南，确保所有标注者遵循相同的标准，准确、一致地标注，更需要在匿名化处理或授权的环境中，对标注进行严格的质量控制，通过交叉验证等方式确保标注质量。

YY/T1833—2022《人工智能医疗器械质量要求和评价》中对人工智能医疗器械数据集通用要求、数据标注通用要求进行了详细说明，如需本该文件介绍，或基于该文件进行技术交流，可私信我。

5.数据增强

使用数据增强技术，如图像旋转、裁剪、色彩调整、文本词替换、分词等方式，扩充数据集的规模和多样性。数据增强的目的是通过模拟现实世界中的多样性和变化，使AI模型能够更好地理解和处理实际应用场景中的数据。在应用数据增强时，需要考虑增强的程度和类型，以确保增强后的数据仍然保持其真实性和可靠性。

6.构建测试数据集

选择好测试数据后，将标注好的数据组织成适合模型训练和测试的数据集。需要注意的是，随着人工智能应用领域的不断发展，人工智能数据集应不断更新，跟上最新的技术变化和行业进展。

以上就是人工智能测试数据集的概念、评价标准和构建流程的全部内容了。我们依托医学数据库，在医学人工智能工具测试数据集方面做了大量的训练工作，产生了成熟的医学领域人工智能测试数据集，如果您需要一起交流探讨可私信我。有关其他行业的数据集训练也可以私信交流。

参考文献

[1]李冬妮,张海燕,温昱晖.人工智能数据集标准化与共享机制的探索[J].金融电子化,2021,(07):75-77.

[2]车贺宾,薛万国,徐洪丽等.医学人工智能产品测试数据集通用化描述方法研究[J].医疗卫生装备,2023,44(07):74-78.

[3]梁铭标,林晓兰,黄帅等.面向不确定需求的检测数据集配置平台设计与实现[J].医疗卫生装备,2023,44(02):5-11.

[4]亿欧智库：2023年中国人工智能医学影像产品生态路线研究报告https://www.iyiou.com/research/202307071242https://link.zhihu.com/?target=https%3A//www.iyiou.com/research/202307071242

（本文引用部分内容版权属于原作者，仅作交流探讨，如有侵权请联系删除。谢绝转载）

daopuyun

关注

28
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫