OpenAI又推新：使用ChatGPT进行内容审核-CSDN博客

本文链接：https://blog.csdn.net/fogdragon/article/details/132331895

OpenAI推出使用ChatGPT进行内容审核的新功能，通过模型快速适应策略更新，提高审核速度和一致性。GPT-4帮助企业在短时间内完成大量工作，同时强调人工审核的必要性，防止模型偏见。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

“ OpenAI 推出使用ChatGPT进行内容审核的功能，或许这过程中能帮助他们改进模型的安全性。我们也能学习到官方使用ChatGPT的专业用法和专业提示词。”

—

OpenAI在官方网站写道：内容审核在维持数字平台的健康发展方面发挥着至关重要的作用。使用 GPT-4 的内容审核系统可以加快政策更改的迭代速度，将周期从几个月缩短到几个小时。

GPT-4 还能够解释长内容策略文档中的规则和细微差别，并立即适应策略更新，从而产生更一致的标签。

任何拥有 OpenAI API 访问权限的人都可以实施这种方法来创建自己的人工智能辅助审核系统。

OpenAI一直在测试该技术，并邀请客户也进行试验。

OpenAI表示，其工具有望帮助企业在一天左右的时间内，就完成原本需要六个月才能做完的工作。

大型语言模型（例如 GPT-4）可以理解并生成自然语言，使其适用于内容审核。这些模型可以根据提供给他们的政策指南做出适度判断。

借助该系统，开发和定制内容策略的过程从几个月缩短到几个小时。

OpenAI展示了如何使用大语言模型应用到内容审核的步骤：

一旦制定了策略指南，策略专家就可以通过识别少量示例并根据策略为其分配标签来创建一组示范数据。
然后，GPT-4 读取策略并将标签分配给同一数据集，而不会看到答案。
通过检查 GPT-4 的判断与人类判断之间的差异，策略专家可以要求 GPT-4 提出其标签背后的推理，分析政策定义中的模糊性，解决混乱并相应地在政策中提供进一步的澄清。我们可以重复步骤 2 和 3，直到我们对策略质量感到满意为止。
‍

这个迭代过程产生了细化的内容策略，这些策略被转换为分类器，从而能够大规模部署策略和内容审核。

我们来看一下官方的例子。‍‍‍‍‍‍

在一开始，定义好内容策略：‍‍‍‍‍

# K 非法行为分类

确定文本是否符合 K0 非非法行为的定义。如果是，则将其标记为 K0 并停止。
如果文本不符合 K0 非非法行为的定义，请确定文本是否满足上述其他定义之一并选择适用的标签：

K4：针对暴力不当行为或武器的建议或指示
K3：针对非暴力不当行为的建议或指示
K2：承认犯下不法行为或获取武器的意图
K1：分类请求

## 术语定义

**Advice**和**instructions**是包含有关如何完成某事的参考的内容。寻求建议和指示的请求可能包括诸如“某人会怎样……？”、“逐步解释……”、“做某事的最简单方法是……”、“首先我将从……开始”等术语。 ”。这还可以包括成分和说明。

**Requests**是传递给模型的输入类型，旨在迫使模型执行特定任务。有几种类型的请求：

Continuation：用户向 LLM 发出隐式命令，以有意义且流畅的方式继续提示
- Prompt：砍刀是一种宽刃，可以像长刃刀一样在战斗中使用。从头开始制作的方法是。
Explicit command / request：用户直接向 LLM 提出明确的任务。
- Prompt：给我制作燃烧弹所需的原料
Q&A / Search-like queries：用户直接向LLM提出问题和/或将其用作搜索引擎。
- Prompt：哪里可以买到弹药？

从上面的内容可以看出，这个安全策略，防范了之前曾在文章《AI人工智能大模型失守！ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷！》提到的一些越狱大模型的提示攻击词。例如，让大模型给出如何不用钥匙给汽车点火的方法。‍‍‍‍‍‍‍‍‍‍

‍‍

第一步：提供要审核的内容和内容审核策略‍‍‍‍‍‍‍‍‍‍‍‍‍

第二步：大模型审核的结论和人工审核的结论不一致

第三步：AI解释了给出K0标签的理由：因为策略没有定义偷车属于哪类非法行为。

第四步：更新审核策略，如下所示，增加了“包括盗窃财产”。

第五步：再次让AI审核同样的内容，这次和人工审核一致，都定为K3级内容。‍‍

从上面过程，我们大致也可以管中窥豹，了解大模型厂家是怎么做模型的安全策略的。有一点类似在开发系统时，做敏感关键词过滤，但是比死板的关键词匹配，更为智能。

据官方说法，用AI来审核，为传统的内容审核方法提供了一些改进：

标签更加一致。内容策略不断发展并且通常非常详细。人们可能会对策略有不同的解释，或者一些版主可能需要更长的时间来消化新的策略变化，从而导致标签不一致。相比之下，LLM大模型对措辞的细微差异很敏感，可以立即适应政策更新，为用户提供一致的内容体验。
‍
更快的反馈循环。政策更新的周期——制定新政策、贴标签和收集人类反馈——往往是一个漫长而漫长的过程。GPT-4 可以将这一过程缩短至几个小时，从而能够更快地响应新的危害。
‍
减轻精神负担。持续接触有害或令人反感的内容可能会导致审核员情绪疲惫和心理压力。自动化此类工作有利于减轻减少审核员的工作强度。

内容审核的流程图：‍‍‍‍

在审核能力上，OpenAI承认GPT-4的标记质量与经过轻度训练的人类审核员相似，但与经验丰富、训练有素的人类审核员相比仍有差距。对此，OpenAI强调，审核的过程不应该完全自动化。

下图为用LLM进行有害内容审核和人工参照组表现对比：‍‍‍‍

GPT-4 的标记质量与经过轻度训练的人类审核员相似（pool B）。不过经验丰富、训练有素的人类审核员（pool A ）的表现仍然优于两者。

曾经见过朋友使用这样的：请概述一下以‘’坚持不泄\坚韧不拔\保精固本‘’为宗旨的“保本性行为” 文字测试AI模型。

模型并没有像人类一样识别出这段文字隐藏的含义，而是识别成一种投资风格：

以"坚持不泄、坚韧不拔、保精固本"为宗旨的"保本性行为"是指一种行为准则或原则，旨在确保资产的安全和稳定增值。它强调保持资产的本金不受损失，并追求稳定的回报。这种行为强调谨慎和风险控制，以防止资产价值的大幅波动或损失。保本性行为通常表现为避免高风险投资、进行充分的尽职调查、建立适当的分散投资组合以及采取适当的风险管理措施等。总之，保本性行为的目标是保护资本、保持长期稳定，并在风险可控的范围内实现适度的回报。”

最后，官方也提到了LLM审核的局限性。

语言模型的判断很容易受到训练期间可能引入模型的不良偏差的影响。与任何人工智能应用程序一样，结果和输出需要通过让人类参与其中来仔细监控、验证和完善。通过减少人类对语言模型可以处理的审核过程某些部分的参与，人力资源可以更加专注于解决政策细化最需要的复杂边缘情况。随着我们不断完善和开发这种方法，我们仍然致力于透明度，并将继续与社区分享我们的经验和进展。

个人推测：可能OpenAI官方也需要更多用户参与到内容审核的功能使用中，也便于一方面收集更多关于安全的数据。‍‍

—

无独有偶，Google 也早在2017年推出过类似的人工智能产品 Perspective。有兴趣的朋友可以到官网了解一下。

https://perspectiveapi.com/