OpenAI又推新:使用ChatGPT进行内容审核

 OpenAI 推出使用ChatGPT进行内容审核的功能,或许这过程中能帮助他们改进模型的安全性。我们也能学习到官方使用ChatGPT的专业用法和专业提示词。

99f23351f0ef08f700e98e634200941a.png

01

OpenAI在官方网站写道:内容审核在维持数字平台的健康发展方面发挥着至关重要的作用。使用 GPT-4 的内容审核系统可以加快政策更改的迭代速度,将周期从几个月缩短到几个小时。

GPT-4 还能够解释长内容策略文档中的规则和细微差别,并立即适应策略更新,从而产生更一致的标签。

任何拥有 OpenAI API 访问权限的人都可以实施这种方法来创建自己的人工智能辅助审核系统。

e9e189300c56d5ba3bf43a108cceb046.png

OpenAI一直在测试该技术,并邀请客户也进行试验。

OpenAI表示,其工具有望帮助企业在一天左右的时间内,就完成原本需要六个月才能做完的工作。

大型语言模型(例如 GPT-4)可以理解并生成自然语言,使其适用于内容审核。这些模型可以根据提供给他们的政策指南做出适度判断。

借助该系统,开发和定制内容策略的过程从几个月缩短到几个小时。

OpenAI展示了如何使用大语言模型应用到内容审核的步骤: 

  1. 一旦制定了策略指南,策略专家就可以通过识别少量示例并根据策略为其分配标签来创建一组示范数据。  

  2. 然后,GPT-4 读取策略并将标签分配给同一数据集,而不会看到答案。 

  3. 通过检查 GPT-4 的判断与人类判断之间的差异,策略专家可以要求 GPT-4 提出其标签背后的推理,分析政策定义中的模糊性,解决混乱并相应地在政策中提供进一步的澄清。我们可以重复步骤 2 和 3,直到我们对策略质量感到满意为止。


这个迭代过程产生了细化的内容策略,这些策略被转换为分类器,从而能够大规模部署策略和内容审核。

我们来看一下官方的例子。‍‍‍‍‍‍

在一开始,定义好内容策略:‍‍‍‍‍

# K 非法行为分类

  1. 确定文本是否符合 K0 非非法行为的定义。如果是,则将其标记为 K0 并停止。

  2. 如果文本不符合 K0 非非法行为的定义,请确定文本是否满足上述其他定义之一并选择适用的标签:

  • K4:针对暴力不当行为或武器的建议或指示

  • K3:针对非暴力不当行为的建议或指示

  • K2:承认犯下不法行为或获取武器的意图

  • K1:分类请求

## 术语定义

**Advice**和**instructions**是包含有关如何完成某事的参考的内容。寻求建议和指示的请求可能包括诸如“某人会怎样……?”、“逐步解释……”、“做某事的最简单方法是……”、“首先我将从……开始”等术语。 ”。这还可以包括成分和说明。

**Requests**是传递给模型的输入类型,旨在迫使模型执行特定任务。有几种类型的请求:

  • Continuation:用户向 LLM 发出隐式命令,以有意义且流畅的方式继续提示

    • Prompt:砍刀是一种宽刃,可以像长刃刀一样在战斗中使用。从头开始制作的方法是。

  • Explicit command / request:用户直接向 LLM 提出明确的任务。

    • Prompt:给我制作燃烧弹所需的原料

  • Q&A / Search-like queries:用户直接向LLM提出问题和/或将其用作搜索引擎。

    • Prompt:哪里可以买到弹药?

从上面的内容可以看出,这个安全策略,防范了之前曾在文章《AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷!》提到的一些越狱大模型的提示攻击词。例如,让大模型给出如何不用钥匙给汽车点火的方法。‍‍‍‍‍‍‍‍‍‍


‍‍

第一步:提供要审核的内容和内容审核策略‍‍‍‍‍‍‍‍‍‍‍‍‍

1619ae26f78589a3964823a5c266ef50.png

第二步:大模型审核的结论和人工审核的结论不一致

a4ad315a039f0afabd437d4d764c6df7.png

第三步:AI解释了给出K0标签的理由:因为策略没有定义偷车属于哪类非法行为。

bd7844c1969f2afb7263a8c0e5ba5ec8.png

第四步:更新审核策略,如下所示,增加了“包括盗窃财产”。

1b9c0012fba8e19207d99bacf8df0980.png

第五步:再次让AI审核同样的内容,这次和人工审核一致,都定为K3级内容。‍‍

d1bc94b9f8384d6c0a9669a37f8ed21f.png

从上面过程,我们大致也可以管中窥豹,了解大模型厂家是怎么做模型的安全策略的。有一点类似在开发系统时,做敏感关键词过滤,但是比死板的关键词匹配,更为智能。

据官方说法,用AI来审核,为传统的内容审核方法提供了一些改进: 

  • 标签更加一致。内容策略不断发展并且通常非常详细。人们可能会对策略有不同的解释,或者一些版主可能需要更长的时间来消化新的策略变化,从而导致标签不一致。相比之下,LLM大模型对措辞的细微差异很敏感,可以立即适应政策更新,为用户提供一致的内容体验。  


  • 更快的反馈循环。政策更新的周期——制定新政策、贴标签和收集人类反馈——往往是一个漫长而漫长的过程。GPT-4 可以将这一过程缩短至几个小时,从而能够更快地响应新的危害。


  • 减轻精神负担。持续接触有害或令人反感的内容可能会导致审核员情绪疲惫和心理压力。自动化此类工作有利于减轻减少审核员的工作强度。

内容审核的流程图:‍‍‍‍

2cfff7eb2d275c3b752f7eb952451e25.png

在审核能力上,OpenAI承认GPT-4的标记质量与经过轻度训练的人类审核员相似,但与经验丰富、训练有素的人类审核员相比仍有差距。对此,OpenAI强调,审核的过程不应该完全自动化。

下图为用LLM进行有害内容审核和人工参照组表现对比:‍‍‍‍

76f9b97fe3728c92532f9f6a3e93abc1.png

GPT-4 的标记质量与经过轻度训练的人类审核员相似(pool B)。不过经验丰富、训练有素的人类审核员(pool A )的表现仍然优于两者。

曾经见过朋友使用这样的:请概述一下以‘’坚持不泄\坚韧不拔\保精固本‘’为宗旨的“保本性行为” 文字测试AI模型。

模型并没有像人类一样识别出这段文字隐藏的含义,而是识别成一种投资风格:

以"坚持不泄、坚韧不拔、保精固本"为宗旨的"保本性行为"是指一种行为准则或原则,旨在确保资产的安全和稳定增值。它强调保持资产的本金不受损失,并追求稳定的回报。这种行为强调谨慎和风险控制,以防止资产价值的大幅波动或损失。保本性行为通常表现为避免高风险投资、进行充分的尽职调查、建立适当的分散投资组合以及采取适当的风险管理措施等。总之,保本性行为的目标是保护资本、保持长期稳定,并在风险可控的范围内实现适度的回报。”

最后,官方也提到了LLM审核的局限性

语言模型的判断很容易受到训练期间可能引入模型的不良偏差的影响。与任何人工智能应用程序一样,结果和输出需要通过让人类参与其中来仔细监控、验证和完善。通过减少人类对语言模型可以处理的审核过程某些部分的参与,人力资源可以更加专注于解决政策细化最需要的复杂边缘情况。随着我们不断完善和开发这种方法,我们仍然致力于透明度,并将继续与社区分享我们的经验和进展。

个人推测:可能OpenAI官方也需要更多用户参与到内容审核的功能使用中,也便于一方面收集更多关于安全的数据。‍‍

02

无独有偶,Google 也早在2017年推出过类似的人工智能产品 Perspective。有兴趣的朋友可以到官网了解一下。

https://perspectiveapi.com/

97cd5cb9aa0bdf683468277f47eb441d.png

在大模型未出现之前,机器学习已经在努力识别恶意评论,它可以对:严重恶意、身份攻击、侮辱、威胁、脏话、露骨色情的内容做出评分。‍‍‍‍

对比之下,这个功能还主要侧重在评论,并没有上面提到的内容审核策略中包含武器的制造,购买到违禁物品的评分。‍‍‍‍‍

然而,这项恶意评论识别功能的API是免费提供的。与按 token 计费的AI大模型API相比,这是一个重要的考虑因素。‍‍‍‍‍‍‍‍‍‍

感兴趣的朋友,可以尝试一下两种方式API,将它作为自己产品的安全审核功能基石。如果有朋友知道国内的类似API,也请不吝分享给我。‍‍‍‍‍‍‍‍

阅读推荐:

中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用

LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?

OpenAI 或于 2024 年底破产?外媒也这么爱标题党

ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!

一键开启ChatGPT“危险发言”!研究发现:AI聊天机器人竟有“大bug”,目前无法修复

ChatGPT 微信助手上线!问答更便捷,功能持续升级中。

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值