人工智能在未经孩子同意的情况下,对他们整个童年的照片进行训练
人权观察组织(HRW)周一警告称,巴西儿童的照片——有时是他们整个童年的照片——在未经他们同意的情况下,被用于驱动人工智能工具,包括像“稳定扩散”(Stable Diffusion)这样的流行图像生成器。
人权观察的报告称,这一行为给孩子们带来了紧迫的隐私风险,似乎增加了未经同意的人工智能生成的带有他们肖像的图像的风险。
人权观察研究员韩慧贞(Hye Jung Han)帮助揭露了这个问题。她分析了“不到0.0001%”的LAION-5B数据集,这是一个由公共网络的Common Crawl快照构建的数据集。该数据集不包含实际照片,但包含了自2008年以来在线发布的58.5亿张图片和说明文字的图像-文本对。
在数据集中链接的这些图像中,韩发现了170张来自巴西至少10个州的儿童照片。据《连线》杂志报道,这些照片大多是上传到个人和育儿博客上的家庭照片,大多数网民不会轻易看到,“还有YouTube视频上的剧照,观看次数很少,似乎是为了与家人和朋友分享。”
创建该数据集的德国非营利组织LAION与人权观察组织合作,删除了数据集中儿童图像的链接。
不过,这可能并不能完全解决问题。人权观察的报告警告说,被删除的链接“可能远远低于存在于LAION-5B中的儿童个人数据总量”。韩告诉《连线》杂志,她担心数据集可能仍然引用“来自世界各地”的孩子的个人照片。
删除链接也不会从公共网络上删除图像,它们仍然可以在其他人工智能数据集中被引用和使用,特别是那些依赖于Common Crawl的数据集。
泰勒说:“这是一个更大、更令人担忧的问题,作为一个非营利性志愿者组织,我们将尽自己的一份力量来提供帮助。”
根据人权观察的分析,许多巴西儿童的身份“很容易追踪”,因为儿童的名字和位置包含在构建数据集时处理的图像标题中。
人权观察表示,在初中和高中学生更有可能成为恶霸或坏人将“无害照片”变成露相图像的目标的时候,人工智能工具可能会更好地为人工智能数据集中引用的儿童生成人工智能克隆。
“这些照片涵盖了整个童年时期,”人权观察的报告称。“他们捕捉到了婴儿在医生戴着手套的手中出生的亲密时刻,小孩子在家里吹灭生日蛋糕上的蜡烛或穿着内衣跳舞,学生在学校做演讲,青少年在高中嘉年华上摆姿势拍照。”
泰勒表示,巴西孩子们的照片目前为人工智能工具提供动力的风险较小,因为“所有公开可用的LAION-5B版本都在去年12月被撤下”。泰勒说,斯坦福大学的一份报告“在数据集中发现了指向公共网络上非法内容的链接”,其中包括3226起涉嫌儿童性虐待的材料,这一决定是出于“非常谨慎”的考虑。在LAION确定所有标记的非法内容已被删除之前,数据集将无法再次使用。
泰勒说:“LAION目前正在与互联网观察基金会、加拿大儿童保护中心、斯坦福大学和人权观察组织合作,从LAION- 5b中删除所有已知的涉及非法内容的内容。”“我们非常感谢他们的支持,并希望尽快重新出版修订后的LAION-5B。”
据人权观察报道,在巴西,“至少有85名女孩”报告说,她们的同学利用人工智能工具“根据从社交媒体上拍摄的女孩照片,制作出露点的深度假照”,对她们进行骚扰。人权观察警告说,一旦这些露骨的深度伪造照片被发布到网上,它们就会造成“持久的伤害”,可能会在他们的一生中都留在网上。
他说:“孩子们不应该生活在担心自己的照片被偷或被当作武器来对付自己的恐惧中。”“政府应该紧急采取政策,保护儿童数据免受人工智能引发的滥用。”
保护儿童数据远离人工智能
当LAION-5B于2022年春季推出时,它被描述为试图复制OpenAI的数据集,并被吹捧为“最大的免费图像-文本数据集”。随着它的发布,与私营公司专有数据集隔绝的人工智能研究人员有了一种更自由地进行人工智能实验的方法。
大约在那个时候,LAION的研究人员发表了一篇论文,称LAION预测到“未经过滤的数据集可能会出现一些问题”,并“引入了一种改进的不适当内容标签”,以便更容易标记有害内容,并更新和改进数据集。
报告称,当数据集公开可用时,用户被鼓励“探索并随后进一步报告尚未检测到的内容,从而为改进我们和其他现有方法做出贡献”。
这基本上就是人权观察本周报告所发生的事情,也是LAION认为其数据集比其他大型人工智能数据集更透明的原因之一。
“在我们看来,这个过程不应该是一个不透明的闭门途径,”LAION的论文说。“它应该由一个广泛的研究界来处理,从而产生开放和透明的数据集和模型训练程序。”
一旦HRW的数据集再次公开,其他研究人员可能会帮助标记更多链接到真实儿童图像的url,以不断改进数据集。
大约一个月前,当HRW就这些图像与LAION联系时,LAION告诉HRW,在LAION- 5b上训练的人工智能模型无法逐字复制儿童的个人数据。但考虑到其他隐私和安全风险,LAION开始从数据集中删除照片链接,同时建议“儿童及其监护人有责任从互联网上删除儿童的个人照片”。莱昂说,这将是“防止滥用的最有效保护”。
韩告诉《连线》杂志,她不同意这种说法,她认为,在此之前,这些照片中的大多数人都享有“一定程度的隐私”,因为他们的照片大多“不可能通过反向图像搜索在网上找到”。很可能那些发布自己很少被点击的家庭照片的人从来没有想到,有一天,有时是十多年后,他们会成为人工智能引擎的燃料。
“不应该让孩子和他们的父母承担起保护孩子免受一项根本不可能防范的技术侵害的责任,”韩说。“这不是他们的错。”
随着人工智能技术的出现和扩散,立法者应该紧急干预,保护儿童的隐私。