[AI OpenAI] 通过隐蔽影响行动破坏AI的欺骗性使用

最新推荐文章于 2025-05-15 16:00:00 发布

从零开始学AI

最新推荐文章于 2025-05-15 16:00:00 发布

阅读量936

点赞数 11

分类专栏： OpenAI 文章标签：人工智能

本文链接：https://blog.csdn.net/mahone3297/article/details/139378247

版权

OpenAI 专栏收录该内容

12 篇文章

订阅专栏

我们已终止与隐蔽影响行动相关的账户；我们的服务未显著增加其受众。

The image is an abstract background with soft, blended hues of purple, pink, and blue. The pastel colors mix seamlessly, creating a dreamy and serene atmosphere, reminiscent of a twilight sky or an ethereal mist.

OpenAI 致力于执行防止滥用的政策，并提高 AI 生成内容的透明度。特别是在检测和破坏隐蔽影响行动（IO）方面，这些行动试图在不透露背后行为者真实身份或意图的情况下操纵公众舆论或影响政治结果。

在过去三个月中，我们破坏了五个试图利用我们的模型支持网络上欺骗活动的隐蔽 IO。截至 2024 年 5 月，这些行动似乎并未因我们的服务而显著增加其受众参与度或影响范围。

本博客描述了我们破坏的威胁行为者、我们识别的攻击者趋势和重要的防御趋势——包括如何通过安全设计的 AI 模型在许多情况下阻止威胁行为者生成其想要的内容，以及 AI 工具如何使我们的调查更高效。与本博客同时发布的还有一份趋势分析，详细描述了这些恶意行为者的行为。

阅读完整报告

威胁行为者在互联网上活动。我们也是。通过与行业、民间社会和政府的合作，我们应对 IO 内容的创建、分发和影响。我们的调查和破坏部分得益于多年来分发平台和开源社区的详细威胁报告。OpenAI 发布这些发现，就像其他科技公司一样，旨在促进更广泛的利益相关者社区之间的信息共享和最佳实践。

破坏隐蔽影响行动

在过去的三个月中，我们针对 IO 行为者的工作破坏了试图使用 AI 模型执行各种任务的隐蔽影响行动，例如生成简短评论和长篇文章、编写社交媒体账户的名称和简介、进行开源研究、调试简单代码，以及翻译和校对文本。

具体来说，我们破坏了：

一个来自俄罗斯的先前未报道的行动，我们称之为 Bad Grammar，主要在 Telegram 上运作，目标是乌克兰、摩尔多瓦、波罗的海国家和美国。Bad Grammar 背后的人使用我们的模型调试运行 Telegram 机器人的代码，并用俄语和英语创建简短的政治评论，然后发布在 Telegram 上。
一个来自俄罗斯的行动，称为 Doppelganger。代表 Doppelganger 行动的人使用我们的模型生成用英语、法语、德语、意大利语和波兰语撰写的评论，这些评论发布在 X 和 9GAG 上；翻译和编辑用英语和法语撰写的文章，这些文章发布在与该行动相关的网站上；生成标题；并将新闻文章转换为 Facebook 帖子。
一个名为 Spamouflage 的中国网络，使用我们的模型研究公共社交媒体活动，生成包括中文、英语、日语和韩语在内的文本，然后发布在包括 X、Medium 和 Blogspot 在内的平台上，并调试管理数据库和网站的代码，包括一个先前未报道的域名 revealscum[.]com。
一个名为国际虚拟媒体联盟（IUVM）的伊朗行动，使用我们的模型生成和翻译长篇文章、标题和网站标签，然后发布在与该伊朗威胁行为者相关的网站 iuvmpress[.]co 上。
以色列一家名为 STOIC 的商业公司，因为我们破坏的是其活动，而不是公司本身。我们将此行动命名为 Zero Zeno，以纪念斯多葛学派的创始人。Zero Zeno 背后的人使用我们的模型生成文章和评论，然后发布在多个平台上，特别是 Instagram、Facebook、X 和与该行动相关的网站上。

这些不同行动发布的内容涵盖广泛的议题，包括俄罗斯入侵乌克兰，加沙冲突，印度选举，欧洲和美国的政治，以及中国异见者和外国政府对中国政府的批评。

到目前为止，这些行动似乎并未因我们的服务而显著增加其受众参与度或影响范围。根据布鲁金斯的突破规模（Breakout Scale），该规模评估隐蔽 IO 的影响，范围从 1（最低）到 6（最高），我们的案例研究中没有一个行动得分高于 2（多个平台上的活动，但未突破到真实社区）。

攻击者趋势

根据我们报告中对影响行动的调查以及开源社区的工作，我们识别了近期隐蔽影响行动如何使用像我们这样的人工智能模型的以下趋势。

内容生成：所有这些威胁行为者都使用我们的服务生成文本（偶尔生成图像），生成量更大，语言错误更少，这在单靠人类操作员的情况下是不可能的。
混合新旧：所有这些行动在某种程度上都使用了 AI，但没有一个是完全使用 AI 的。相反，AI 生成的材料只是他们发布的众多内容之一，其他内容包括手写文本或从互联网上复制的表情包等更传统的格式。
伪造参与：我们破坏的一些网络使用我们的服务帮助创建社交媒体上的参与假象——例如，通过生成回复他们自己的帖子。这不同于吸引真实参与，本文描述的网络中没有一个能够在有意义的程度上做到这一点。
生产力提升：我们识别并破坏的许多威胁行为者使用我们的服务尝试提高生产力，例如总结社交媒体帖子或调试代码。

防御趋势

虽然迄今为止公众辩论主要集中在攻击者潜在或实际使用 AI 上，但记住 AI 为防御者提供的优势也很重要。我们的调查还受益于行业共享和开源研究。

防御设计：我们通过安全系统对威胁行为者施加摩擦，这反映了我们负责任地部署 AI 的方法。例如，我们多次观察到我们的模型拒绝生成行为者要求的文本或图像。
AI 增强调查：类似于我们使用 GPT-4 进行内容审核和网络防御的方法，我们构建了自己的 AI 驱动工具，使我们的检测和分析更有效。得益于我们的工具，本报告中描述的调查耗时数天，而不是数周或数月。随着我们的模型改进，我们将继续利用它们的能力来改进我们的调查。
分发重要性：与传统形式的内容一样，AI 生成的材料必须分发才能到达受众。IO 在包括 X、Telegram、Facebook、Medium、Blogspot 和较小的论坛在内的各种平台上发布，但没有一个能够吸引大量受众。
行业共享的重要性：为了增加我们对这些行为者的破坏影响，我们与行业同行共享了详细的威胁指标。我们的调查受益于多年来更广泛的研究社区进行的开源分析。
人为因素：AI 可以改变人类操作员使用的工具包，但不会改变操作员本身。我们的调查显示，这些行为者与前几代人一样容易犯人为错误——例如，在社交媒体和他们的网站上发布我们的模型的拒绝消息。虽然了解威胁行为者使用的工具变化很重要，但我们不应忽视可能影响其操作和决策的人为限制。

我们致力于开发安全和负责任的 AI，这涉及以安全为重心设计我们的模型并主动干预恶意使用。检测和破坏多平台滥用行为（如隐蔽影响行动）可能具有挑战性，因为我们并不总是知道我们产品生成的内容是如何分发的。但我们致力于通过利用生成性 AI 的力量，在大规模上发现和减轻这种滥用行为。