本文根据datawhale 2023年9月的学习项目 简单学点大模型 做的笔记。
基座课程:斯坦福大学大规模语言模型课程
Task05:大模型法律问题
人工智能发展带来的法律和社会伦理相关的问题主要包括以下3个方面:大模型与知识产权、大模型与隐私、大模型的技术滥用。
一、知识产权相关:生成内容的保护
目前透明度在版权生态系统中正变得愈发重要。由于目前的知识产权只保护人类作者创作的作品,有必要在产品中披露非人类作者来源的部分。确定 AI 生成内容的独创性门槛对于讨论 AI 生成内容是否需要被版权法保护是至关重要的。这就要求人们进一步区分辨识 AI 生成的内容和 AI 辅助产生的内容。
二、大模型与隐私
大模型需要使用海量的文本语料进行学习,而在这个过程中使用的是无监督学习方式对大量的文本数据进行预训练。凡是互联网上可以找到的信息,几乎都在其学习之列。即便科研人员会对语料进行数据清洗,但其中仍有可能包含个人的隐私信息。大模型会记住训练所使用的样本,可能会在无意中泄露敏感信息。所以,应该在微调阶段纳入更严格的保障措施,以加强对于数据隐私的保护。
大模型存在隐私风险的三个方面:互联网数据训练、用户数据收集和生成内容中的无意泄露。这其中首先需要确保公共数据是不具有个人可识别性的,并与私人或敏感数据明确区分开来。未来应重点关注算法的透明度和对个人信息主体的潜在伤害问题。
其实,对于隐私的保护和大模型的效率之间存在着一个两难的矛盾——既要最大限度地保护数据隐私,又要最大限度地发挥模型的功效。人们需要通过协作开发一个统一、可信的框架,从而在隐私保护、模型效用和训练效率之间取得一种平衡。
在大模型开发过程中面临的数据隐私问题上,要确保遵守现行法律法规的规定,并充分评估隐私数据的使用对个人信息主体的影响,采取有效措施防止可能带来负面影响。
三、大模型和技术滥用问题
当大模型在技术和社会中扮演起越来越关键的角色时,大模型一旦遭到滥用,其强大的效用和能力有可能反过来损害社会的利益。
负责任的人工智能需要技术和社会学两方面的策略双管齐下,而且有必要将大模型与多样化、个性化以及特定文化的人类价值观结合起来,达到一致。这其中对于边缘群体(尤其是残障人士)的数字平等问题需要更加关切。AI 技术可能产生错误陈述和歧视,使得对残障人士的歧视被制度化。因此,AI 开发者必须注意不要让残障人士与 AI 产生角色和利益上的冲突,开发者有责任去主动对抗那些有偏见的态度,倡导平等参与,提高平等意识。