震惊！斯坦福研究揭露：Stable Diffusion用儿童性虐待材料进行训练

最新推荐文章于 2024-07-06 17:27:12 发布

智言AI

最新推荐文章于 2024-07-06 17:27:12 发布

阅读量325

点赞数 4

文章标签： stable diffusion

本文链接：https://blog.csdn.net/qq_26402269/article/details/137653412

版权

大模型的浪潮滚滚向前，总免不了闹剧一幕幕上演。

前有字节跳动被 OpenAI封号的罗生门，接着谷歌Gemini自曝中文用百度文心一言训练看呆网友，这次，大模型又在数据集上翻车了！

关注创亿人工智能，即可免费体验无魔法版本的ChatGPT！pc端：gpt4.tenglangai.com

斯坦福大学近日针对开源模型训练数据集 LAION-5B 展开研究，发现该数据集中包含数百张已知的儿童性虐待材料 (CSAM) 图像，这些图像用于训练流行的 AI 文本到图像生成模型，例如稳定扩散模型。该数据集包含至少 1,008 个儿童性虐待材料实例。

这里提到的利用 LAION-5B 训练自家模型的公司，正包括当红的 Stability AI 和Google 。

报告称，LAION-5B 数据集于 2022 年 3 月发布，包含来自互联网的超过 50 亿张图像和相关说明文字，还可能包括数千条疑似儿童性虐待材料（CSAM）。该报告警告说，数据集中的 CSAM 材料可以使基于这些数据构建的人工智能产品输出新的且可能真实的虐待儿童内容。

早在3个月前，研究人员就着手梳理 LAION 数据集，通过查看哈希值或图像的标识符，调查其中存在多少儿童性虐待材料 (CSAM)。调查表明，该数据集包括从各种来源抓取 CSAM，其中至少包含 1,679 张从社交媒体帖子和流行成人网站上抓取的非法图像。

目前研究人员已将出现问题的图像 URL 上报美国国家失踪和受虐儿童中心(NCMEC) 和加拿大儿童保护中心(C3P)。这些机构主要使用 PhotoDNA 等哈希工具进行检测，将图像的指纹与其数据库进行匹配。

研究人员表示，他们不会查看被滥用的内容，并且会向受虐儿童中心（NCMEC ）报告匹配结果，必要时由加拿大儿童保护中心进行验证。

加拿大儿童保护中心帮助验证了斯坦福的发现，他们最担心的是对这些庞大数据集的策展缺乏关心——这些数据集只是加剧了困扰包括苹果和TikTok在内的所有主要科技公司的长期CSAM问题。

该机构的IT主任劳埃德·理查森告诉《福布斯》：“实际上策划十亿张图片是一件非常昂贵的事情，因此你会尝试尽可能自动化地快捷处理。”“已知的儿童性虐待材料肯定存在于它们可以过滤掉的数据库中，但他们没有。如果我们在其中发现了已知的CSAM，那么其中肯定也有未知的CSAM。”

他补充道，这给Stability AI等公司带来了一个重要问题：“如果我使用非法材料来训练这个模型，那这个模型本身就是非法的吗？对于这些公司来说，这个问题真的很不舒服，它们实际上并没有真正做任何事情来正确策划他们的数据集。”

国内中文版ChatGPT

在这里插入图片描述

智言AI公众号

qrcode_for_gh_e5112653b2df_258 (1).jpg

标签：

关注