震惊!斯坦福研究揭露:Stable Diffusion用儿童性虐待材料进行训练

大模型的浪潮滚滚向前,总免不了闹剧一幕幕上演。

前有字节跳动被 OpenAI封号的罗生门,接着谷歌Gemini自曝中文用百度文心一言训练看呆网友,这次,大模型又在数据集上翻车了!

关注创亿人工智能,即可免费体验无魔法版本的ChatGPT!pc端:gpt4.tenglangai.com

关注智言AI

即可免费体验无魔法版本的DALL·E3(画图)、GPT实时联网和4V功能(看图)!

电脑端可以复制链接进行使用: https://chat.chatgptten.com/

斯坦福大学近日针对开源模型训练数据集 LAION-5B 展开研究,发现该数据集中包含数百张已知的儿童性虐待材料 (CSAM) 图像,这些图像用于训练流行的 AI 文本到图像生成模型,例如稳定扩散模型。该数据集包含至少 1,008 个儿童性虐待材料实例。

这里提到的利用 LAION-5B 训练自家模型的公司,正包括当红的 Stability AI 和Google 。

报告称,LAION-5B 数据集于 2022 年 3 月发布,包含来自互联网的超过 50 亿张图像和相关说明文字,还可能包括数千条疑似儿童性虐待材料(CSAM)。该报告警告说,数据集中的 CSAM 材料可以使基于这些数据构建的人工智能产品输出新的且可能真实的虐待儿童内容。

图片

早在3个月前,研究人员就着手梳理 LAION 数据集,通过查看哈希值或图像的标识符,调查其中存在多少儿童性虐待材料 (CSAM)。调查表明,该数据集包括从各种来源抓取 CSAM,其中至少包含 1,679 张从社交媒体帖子和流行成人网站上抓取的非法图像。

目前研究人员已将出现问题的图像 URL 上报美国国家失踪和受虐儿童中心(NCMEC) 和加拿大儿童保护中心(C3P)。这些机构主要使用 PhotoDNA 等哈希工具进行检测,将图像的指纹与其数据库进行匹配。

研究人员表示,他们不会查看被滥用的内容,并且会向受虐儿童中心(NCMEC )报告匹配结果,必要时由加拿大儿童保护中心进行验证。

加拿大儿童保护中心帮助验证了斯坦福的发现,他们最担心的是对这些庞大数据集的策展缺乏关心——这些数据集只是加剧了困扰包括苹果和TikTok在内的所有主要科技公司的长期CSAM问题。

图片该机构的IT主任劳埃德·理查森告诉《福布斯》:“实际上策划十亿张图片是一件非常昂贵的事情,因此你会尝试尽可能自动化地快捷处理。”“已知的儿童性虐待材料肯定存在于它们可以过滤掉的数据库中,但他们没有。如果我们在其中发现了已知的CSAM,那么其中肯定也有未知的CSAM。”图片

他补充道,这给Stability AI等公司带来了一个重要问题:“如果我使用非法材料来训练这个模型,那这个模型本身就是非法的吗?对于这些公司来说,这个问题真的很不舒服,它们实际上并没有真正做任何事情来正确策划他们的数据集。”

国内中文版ChatGPT

中文版ChatGPT4.0微信端使用方式

在这里插入图片描述

智言AI公众号

qrcode_for_gh_e5112653b2df_258 (1).jpg

标签:

AIGC

ChatGPT

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值