本文根据datawhale 2023年9月的学习项目 简单学点大模型 做的笔记。
基座课程:斯坦福大学大规模语言模型课程
Task05:大模型法律问题
人工智能发展带来的法律和社会伦理相关的问题主要包括以下3个方面:大模型与知识产权、大模型与隐私、大模型的技术滥用。
一、知识产权相关:生成内容的保护
目前透明度在版权生态系统中正变得愈发重要。由于目前的知识产权只保护人类作者创作的作品,有必要在产品中披露非人类作者来源的部分。确定 AI 生成内容的独创性门槛对于讨论 AI 生成内容是否需要被版权法保护是至关重要的。这就要求人们进一步区分辨识 AI 生成的内容和 AI 辅助产生的内容。
二、大模型与隐私
大模型需要使用海量的文本语料进行学习,而在这个过程中使用的是无监督学习方式对大量的文本数据进行预训练。凡是互联网上可以找到的信息,几乎都在其学习之列。即便科研人员会对语料进行数据清洗,但其中仍有可能包含个人的隐私信息。大模型会记住训练所使用的样本,可能会在无意中泄露敏感信息。所以,应该在微调阶段纳入更严格的保障措施,以加强对于数据隐私的保护。
大模型存在隐私风险的三个方面:互联网数据训练、用户数据收集和生成内容中的无意泄露。这其中首先需要确保公共数据是不具有个人可识别性的,并与私人或敏感数据明确区分开来。未来应重点关注算法的透明度和对个人信息主体的潜在伤害问题。
其实,对于隐私的保护和大模