费曼说:学习一件事情最好的方式是做它的老师,这也是写这篇博文的目的,写这篇博文,即便有其他原因,但更多的还是写给自己,话不多说,让我们开始进入大模型吧
任务说明:任务说明
基座课程:斯坦福大学大规模语言模型课程
引言:本次的任务主要介绍的是大模型所要面临的法律方面的问题,随着我国《中华人民共和国网络安全法》《中华人民共和国数据安全法》等法律的出台,我们应该逐渐意识到,新技术不代表可以逃脱法律的治理,大模型也是一样,本次任务中,主要学习大模型及其相关的法律方面的问题,同时,我们将从以下的方面展开:
1. 新技术与现有法律的关系
2. 互联网法律管辖的挑战
3. 法律与道德
4. 法律的管辖范围的问题
5. 法律的类型
6. 大语言模型与法律
7. 数据
8. 应用
1. 新技术与现有法律的关系:
新技术往往能拓展新的领域,当不受法律考虑时,新技术将如何与现有的法律进行对齐?
2. 互联网法律管辖的挑战:
网络空间的匿名性:由计算机网络方面的知识,我们可以得知,每个设备对应一个ip,但在请求头中理论上可以封装其他ip,这是VPN的原理,ip地址难以追踪,互联网匿名性强是互联网法律管辖的挑战。
3. 法律与道德
法律最低的一种道德,道德是人类默许的希望对方能够达到的一种行为准则,互联网道德具体来说就是:文明用语、不危害个人信息等。
4. 法律的管辖范围的问题
问题主要出在管辖范围的问题:我们都知道,网络拓扑结构模型是一个较为独立的虚拟世界,通过各地假设的网络节点,一个ip对应的设备可以访问到任何网页,这对于不同国家不同法律的管辖权来说,是一个难以界定的问题。
5. 法律的类型
与本次内容相关性比较强的是普通法(司法),成文法和监管法在本次学习中涉及较少。
6. 大语言模型与法律
主要包括数据和应用,于此牵扯出一串法律相关的问题如下
7. 数据
大模型训练的数据一定直接的或间接地来源于人,这些数据在未经许可的情况下被抓取,例如:医院的患者信息,公开网络上泄露个人隐私信息(如收入、ip等),这些数据上训练模型,并使用模型是否侵犯个人信息安全。
8. 应用
利用数据训练出的大模型是否会泄露个人信息?同时,大模型的应用,如虚假信息、废物邮件等是否会侵害他人权利,这都是值得考虑的问题
6.2 版权法
大语言模型基于数据开展训练,这些数据都是人类劳作的结果,除创作者外,其他人可以对这些创作进行的使用属于版权法管辖的范畴。
6.2.1 知识产权法
目的是鼓励原创作品
6.2.2 许可
略
6.2.3 公平使用(第107条)
公平使用是指在版权法中对作品进行合理使用的一项原则,允许他人在一些特定情况下使用受版权保护的作品而不需要获得版权持有人的许可。
决定是否适用公平使用的四个因素是:
使用的目的和性质:使用作品的目的和性质会影响是否被认为是公平使用。例如,教育用途可能更有可能被认为是公平使用,而商业用途可能更受限制。同样,转型用途(对原作进行改编或转换)相对于简单的复制使用可能更有可能符合公平使用的要求。
版权作品的性质:不同类型的作品可能对公平使用的要求有所影响。虚构作品相对于事实作品可能更容易被认为是公平使用,而具有较高创新性的作品也可能更有可能符合公平使用的标准。
使用的原作部分的数量和实质性:使用的原作部分的数量和重要性也会影响公平使用的判断。使用较小和较不重要的部分可能更容易符合公平使用的要求,而使用整个作品或重要的部分可能更容易引起版权争议。
使用对原作市场(或潜在市场)的影响:判断公平使用还需要考虑使用对原作市场的影响。如果使用作品可能对原作的市场产生负面影响,例如替代原作或减少原作的销售,那么可能会限制公平使用的范围。
6.3 案例研究
前面的一些案例都是一些关于国外公平使用的例子,Google是大公司啊,不知道有没有这个原因,在一些场合下总能胜诉,下面的公平学习与机器学习中,会介绍国内关于联邦学习的一些简述
6.4 公平学习与机器学习
公平使用:部分人赞成数据用来训练模型,但大多数人想机器学习的公平使用应考虑数据的变异性和目的的改变。访问广泛的训练数据可创造更好的系统,但也存在对创意和版权的质疑。在版权法下,很难区分保护的表达和不保护的想法。关于大型语言模型的公平使用问题仍在快速发展中。
关于这段内容,一个成熟且鲜明的例子将浮现在我们的脑海:
联邦学习:
联邦学习是一种在数据不共享的情况下进行联合建模的技术,由谷歌研究院于2016年首次提出。在联邦学习中,各个数据拥有者(个人、企业、机构等)的数据保持在本地,通过加密机制下的参数交换方式,在不违反数据隐私法规的情况下建立一个全局共享模型。该共享模型仅为各自区域内的目标服务。简要的来说,联邦学习在国内的应用主要在于各大互联网企业之间的中间数据共享机制,下面是图片介绍:
尽管联邦学习与分布式机器学习有一些相似之处,但在应用领域、系统设计和优化算法方面存在一些特征。当数据量庞大且需要大量计算资源时,分布式机器学习(如参数服务器)具有明显的优势。它将独立同分布(IID)的数据或模型参数存储在分布式节点上,中心服务器调度数据和计算资源进行联合训练。而联邦学习则需要处理非独立同分布(non-IID)的数据,由于客户端的地理和时间分布差异。
总的来说,联邦学习通过保护数据隐私,使各个数据拥有者能够共同建立模型,而无需共享原始数据。它在隐私保护和数据安全方面具有重要意义,并在许多领域中得到了广泛应用和研究。
6.5 阶段性结论
随着网络技术的发展,从文本数据挖掘到分类推荐系统再到生成模型,一系列版权相关的事情也反映着机器学习的发展。但对于大模型,法律还没有一定的考虑。
6.6 隐私法律教程
从案例来看,对于隐私保护,国外着方面还是比较严格的(大公司也不会胜出),这与舆论监督可能有关
6.7 GDPR
欧盟通过的数据保护条例,应用更加广泛也更容易去理解
6.8 其他法
6.9 总结
随着人工智能领域的迅速发展,模型训练所用到的数据及使用都会促使人们从法律的角度来反思以及评判该问题,立法不仅仅是法学家一个人的问题,也是社会对于某一问题的同一的认同的体现,随着受众面越来越广,涉及面越来越大,大模型及背后的相关法律也将逐步提上日程。