论文分享 用公开数据集构建商业 AI 软件是否可行?—— 公开图像数据集案例研究

原文链接:https://arxiv.org/abs/2111.02374 《Can I use this publicly available dataset to build commercial AI software?-A Case Study on Publicly Available Image Datasets》

以下内容使用豆包提取:

在过去十年中,人工智能(AI)在软件中的应用和商业化显著增加,而公开可用数据集是商业 AI 软件的关键驱动力之一。本文提出一种评估使用公开数据集构建商业 AI 软件时潜在许可证合规性风险的方法,并通过对 6 个常用公开图像数据集的案例研究,发现这些数据集在商业使用中存在不同程度的潜在风险。

  1. 引言
    • AI 软件与数据集:AI 软件的关键组件 AI 模型需用大量数据训练,公司可通过多种方式获取数据集,使用公开数据集构建商业 AI 软件是常见方式。
    • 数据集许可证合规问题:使用公开数据集需遵守相关许可证,但确保许可证合规面临诸多挑战,如许可证难以定位和识别、有效性难验证、内容不清晰等。
    • 本文贡献:提出评估使用公开数据集构建商业 AI 软件风险的方法;提出数据模式以标准化记录和共享分析结果;通过案例研究展示潜在许可证合规问题并为 AI 工程师提供建议。
  2. 背景与相关工作
    • 数据集的法律权利和保护:数据集受版权法和合同法保护,不同国家法律不同,使用含版权数据的公开数据集构建商业 AI 软件可能侵权;此外,还有隐私和公平相关法律。
    • 分析数据集许可证合规性的目标和挑战:公司需确保使用公开数据集时许可证合规,避免违反规定,但许可证相关权利和义务不明确,给 AI 工程师带来挑战,需谨慎确保合规并建立可追溯性。
    • 相关工作:已有研究集中于评估开源软件许可证合规性,但公开数据集许可证问题不同,需新方法;软件还需遵守监管要求,现有方法不适用于数据集许可证;现有数据集许可证不标准且模糊,本文关注商业使用中的合规风险。
  3. 方法
    • 概述:由 AI 工程师发起许可证合规分析请求,分两阶段。第一阶段识别许可证相关信息,可由 AI 工程师完成;第二阶段评估合规风险,需律师参与。分析过程中信息记录在数据库,完成后 AI 工程师依结果判断数据集商业用途可行性。
    • 第一阶段:许可证识别
      • 许可证提取:从数据集下载网站或相关文件找许可证,找不到则联系数据集所有者。
      • 来源提取:确定数据集的真正来源,包括定位官方来源、提取许可证和元数据,若与之前提取的许可证冲突则以来源提取的为准。
      • 谱系提取:追踪数据集的数据来源,确定许可证范围,识别数据来源的许可证,包括追踪创建过程、定位官方来源、确定许可证范围、识别许可证等步骤。
    • 第二阶段:许可证合规评估
      • 许可证解释:律师解读许可证,提取权利和义务,用增强版蒙特利尔数据许可证(Enhanced MDL)格式记录,必要时更新文档和模式。
      • 许可证兼容性分析:根据 Enhanced MDL 信息进行风险评估,确定数据集商业使用的权利和义务,考虑数据源许可证对数据集许可证的影响,判断数据集使用场景是否合规。
  4. 案例研究细节
    • 案例研究设置:选取 6 个常用公开图像数据集(CIFAR - 10、ImageNet、Cityscapes、MS COCO、FFHQ 和 VGGFace2),研究其许可证特征和潜在合规风险,常见商业使用场景包括数据集商业分发、发布含预训练模型产品、模型输出商业化。
    • 案例研究结果
      • 数据集许可证特征:多数数据集未使用标准许可证,部分使用 Creative Commons 许可证家族,除 Cityscapes 外数据集都从其他数据源收集数据。
      • 许可证合规分析结果:所有数据集用于商业 AI 软件构建都有潜在风险,部分数据集修改或分发也可能违规,使用 Cityscapes 训练的模型需防范反向工程,所有数据集都有需遵循的义务,否则可能违规。
  5. 行业从业者反馈:从业者使用本文方法后,意识到追溯数据集来源和谱系的重要性,认可方法和模式的有用性,但认为手动操作工作量大,希望有自动化工具。
  6. 对 AI 工程师的建议
    • 谨慎使用:验证公开数据集能否用于商业 AI 软件构建。
    • 系统评估与记录:用本文方法和模式记录数据集许可证相关信息,展示尽职调查。
    • 共享风险知识:分享数据集商业使用的风险和用例,减少重复工作并验证分析。
  7. 有效性威胁
    • 外部有效性:研究仅关注许可证合规,未涉及隐私和伦理等其他影响数据集商业使用的因素,且仅针对图像数据集,其他类型数据集可能有不同挑战。
    • 内部有效性:未考虑数据点的许可证,虽提取数据集来源和谱系信息,但仍存在准确性威胁,且同一数据集不同来源许可证可能不同。
    • 结构有效性:提取的数据集来源和谱系信息可能不准确,如确定数据集起源方式可能不可靠,部分数据集数据来源不明确。
  8. 结论:公开数据集广泛用于商业 AI 软件构建,但许可证相关权利和义务难验证,本文提出方法和模式评估潜在合规风险,案例研究表明这些数据集可能不适合商业使用,未来研究可探索更多类型数据集。

以下内容通过腾讯元宝提取:

这篇论文探讨了使用公开可用的数据集来构建商业人工智能(AI)软件的合法性问题。

研究背景

  1. 研究问题: 这篇文章旨在解决使用公开可用数据集构建商业AI软件时可能面临的许可证合规性问题。具体来说,文章研究了如何评估使用这些数据集是否会导致潜在的许可证违规。
  2. 研究难点: 该问题的研究难点包括:数据集许可证的多样性和不清晰性、数据集的多源性和多位置存储、现有开源软件许可证合规性检查工具无法直接应用于数据集等。
  3. 相关工作: 相关工作主要集中在开源软件许可证合规性检查和软件监管合规性方面,但缺乏针对数据集许可证合规性的系统研究。

研究方法

这篇论文提出了一种新的方法来评估使用公开可用数据集构建商业AI软件时的潜在许可证合规性风险。具体来说,

  1. 许可证识别:
    • 许可证提取: 首先从数据集下载网站或数据集文件中提取许可证信息。
    • 数据集来源提取: 确认数据集的官方来源,并提取其许可证和元数据。
    • 数据源追溯: 追溯数据集的创建过程,确定其数据源,并收集这些数据源的许可证信息。
  2. 许可证合规性评估:
    • 许可证解释: 由律师解读数据集及其数据源的许可证,提取其中的权利和义务。
    • 许可证兼容性分析: 基于提取的权利和义务,进行风险评估,确定数据集是否可以在特定商业场景下使用。
    • 场景评估: 根据最终的权利和义务,确定数据集是否可以用于特定的商业用途,并将义务转化为AI软件需求。

实验设计

  1. 数据集选择: 选择了六个常用的公开可用图像数据集:CIFAR-10、ImageNet、Cityscapes、MS COCO、FFHQ和VGGFace2。
  2. 实验步骤:
    • 许可证识别: 对每个数据集进行许可证提取、数据集来源提取和数据源追溯。
    • 许可证合规性评估: 由律师解读许可证,进行兼容性分析和场景评估。

结果与分析

  1. 许可证特征:
    • 4个数据集没有使用标准的数据集许可证,只有FFHQ和VGGFace2使用了标准的Creative Commons许可证。
    • 所有数据集都涉及多个数据源,强调了追溯数据集血统的重要性。
  2. 许可证合规性分析结果:
    • 所有数据集在使用时都可能存在潜在的许可证合规性风险。
    • 没有一个数据集的许可证明确允许商业化AI模型或其输出。
    • 修改、分发和使用数据集进行商业用途都可能导致许可证违规。

结论

这篇论文提出了一种系统的方法来评估使用公开可用数据集构建商业AI软件时的潜在许可证合规性风险。通过案例研究,发现所有研究的数据集在使用时都可能存在潜在的许可证合规性风险。论文的贡献在于提出了一个新的方法和数据模式,帮助AI工程师评估和记录数据集的使用风险,并提供了实际的建议以减少法律风险。

这篇论文为AI工程师在使用公开可用数据集时提供了重要的指导,强调了许可证合规性的重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑呵呵的大文子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值