人工智能训练的数据来源

deepdata_cn

于 2024-05-22 11:54:33 发布

阅读量610

点赞数 22

分类专栏：人工智能机器学习数据安全文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43156294/article/details/139116314

版权

人工智能同时被 3 个专栏收录

122 篇文章 0 订阅

订阅专栏

33 篇文章 0 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

在这里插入图片描述
人工智能训练的数据来源是多方面的。生成式人工智能数据训练的需求体现在数据数量、多样性、质量、领域特定性、多模态性、实时性、长期演进性、平衡性、合规性以及多语言性等方面。满足这些需求，可以帮助生成式AI模型更好地适应各种场景和任务，提高其性能和可应用性。

一、主要渠道

公共领域的作品数据：这些数据不受著作权保护，可以自由使用，但可能需要遵守特定的使用条款或条件。
尚在著作权保护范围内的作品数据：使用这类数据需要获得著作权人的授权，否则可能会侵犯著作权。
用户数据：用户在使用互联网服务时产生的数据，如浏览记录、搜索历史等，这些数据可能包含个人信息，需要遵守个人信息保护法规。
企业数据：企业通过合法渠道收集和整理的数据，可能涉及个人信息和财产利益，使用时需考虑数据的合法来源和合规性。
公共数据：政府或公共机构发布的数据，通常具有高可信度，使用时需考虑数据安全和合规性。
互联网爬虫技术：通过自动化手段从互联网上抓取数据，但需注意版权和隐私保护。
API接口对接：通过与数据提供方的合作，合法获取数据。
项目定制化数据采集：针对特定AI应用场景，通过定制化方式收集所需数据。
数据服务商提供的数据：一些专业数据服务商提供的高质量、场景化数据。
数据场景实验室：为了还原更贴合AI使用场景，进行的实践性数据采集。

二、法律法规

数据的来源包括公共领域的作品数据和受著作权保护的作品数据，后者使用时需要授权以避免侵权风险。

文本与数据挖掘技术在数据获取、输入及输出环节可能涉及著作权侵权的风险。
用户数据承载个人信息利益，需要接受个人信息保护的法律规制，如《个人信息保护法》和《网络安全法》。
企业数据承载个人信息利益和财产利益，需要接受个人信息保护和竞争法的法律规制。
公共数据承载公共利益和国家利益，需要接受数据安全的法律规制。

三、版权讨论

数据训练的法律争议：人工智能数据训练的法律争议主要集中在版权问题。数据训练对人工智能性能具有决定性影响，而数据输入阶段的版权分析需要考虑复制行为和合理使用规定。
数据来源合法性：ChatGPT等生成式人工智能在训练数据环节面临的问题不止数据版权，也涉及个人信息以及隐私权、人格（如肖像权）、商业秘密权以及不正当竞争等法律风险。
合理使用与版权例外：AI数据训练是否能够适用合理使用或者著作权法保护例外，是一个重大问题。需要结合著作权法相关规定，同时站在AI数据训练的全球立法和司法实践以及未来技术和社会发展的宏观背景进行分析。
版权法对数据输入阶段的规定：在中国，AI训练中数据输入的本质是复制，不经授权的大规模复制受版权保护作品训练人工智能，唯一可行的合法例外是合理使用。
生成内容的版权问题：生成内容的版权问题尚未有明确的法律定论。由于人工智能既不是法律意义上的自然人，也不是法人，难以获得作者资格，因此无法成为作品的版权所有者。
法律责任：生成的内容涉及侵犯著作权、个人信息等，则服务的提供者需要承担相应的法律责任。
版权侵权案例：OpenAI面临版权集体诉讼，指控未经授权利用享有版权的图书训练ChatGPT，谋取商业利益。这表明版权人存在发现自身作品被侵权的现实难题，并且对于大模型训练阶段的版权责任有待进一步的法律明确。
版权保护的需求：尽管人工智能生成内容没有符合资格的作者，但可能存在法律保护的需求，如学生使用ChatGPT写论文、诗集出版后被未经授权传播等情形。
立法建议：有建议提出制定“人工智能法”，基于一体化视角从权利限制与产业激励维度系统规范人工智能训练数据行为，以法律促进技术发展。

四、自主保护

版权所有者保护其作品不被ChatGPT或其他人工智能模型未经授权使用，可以采取以下措施：

监控使用情况：版权所有者可以监控网络上的使用情况，看是否有未经授权的复制或使用。这可能需要使用版权监控服务或定期搜索网络来检测潜在的侵权行为。
明确版权声明：在作品发布时，版权所有者应明确版权声明，指明作品的使用条款和限制，禁止未经授权的复制和使用。
利用技术保护措施：使用数字版权管理（DRM）或其他技术手段来保护作品，防止未经授权的访问和复制。
参与集体管理组织：加入著作权集体管理组织，这些组织可以代表版权所有者管理和授权作品的使用，包括与AI公司协商使用条款。
法律行动：如果发现侵权行为，版权所有者可以通过法律途径来维护自己的权益，包括发出侵权通知或提起诉讼。
制定退出机制：版权所有者可以要求在AI模型训练数据库中删除自己的作品，尤其是当AI模型可能用于商业目的时。
利用合同条款：如果AI公司需要使用版权作品，版权所有者可以通过合同条款明确规定使用的范围、条件和报酬。
通过这些措施，版权所有者可以更有效地保护自己的作品不被ChatGPT或其他AI模型未经授权使用。
这些讨论表明，随着人工智能技术的快速发展，相关的法律规制和版权问题变得越来越重要，需要法律专家、技术开发者和政策制定者共同努力，找到平衡技术发展和保护版权的解决方案。
请注意，使用任何数据进行人工智能训练之前，都需要确保数据的合法来源和遵守相关的法律法规。

关注

22
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
人工智能训练的数据来源

人工智能训练的数据来源是多方面的。生成式人工智能数据训练的需求体现在数据数量、多样性、质量、领域特定性、多模态性、实时性、长期演进性、平衡性、合规性以及多语言性等方面。满足这些需求，可以帮助生成式AI模型更好地适应各种场景和任务，提高其性能和可应用性。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。