ChatGPT背后的标注人：在非洲只管「鉴黄」！时薪不到两美元...-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>CV微信技术交流群

转载自：机器之心 | 选自《TIME》

最先进的 AI 技术，背后还是原始的劳动。

ChatGPT 是去年热度最高的科技创新之一，这种强大的人工智能几乎可以生成任何主题的文本，既可以与人对话聊天，也会编程、参与考试、写诗搞艺术，在上线一周的时间内就拥有了上百万用户。

在 ChatGPT 一炮而红之后，OpenAI 现在正在与投资者谈判估值 290 亿美元的融资，其中微软要投 100 亿美元。如果这次融资成功，OpenAI 将成为世界上最有价值的人工智能公司之一。

然而成功的故事不止有技术天才和资金，美国《时代》杂志最近的一项调查发现，为训练 ChatGPT，OpenAI 使用了每小时收入不到两美元的肯尼亚外包劳工。

在 AI 模型训练过程中使用人工标注非常重要，特别是对于 ChatGPT 这样的语言模型，如果不加规制，AI 经常会出口成脏，性别歧视或者发表种族主义言论。这是因为人工智能接受的是从互联网上收集的数千亿个单词的训练。

庞大的训练数据集是 GPT-3 拥有强大语言能力的原因，但也可能是它背负的最大诅咒。互联网在拥有知识的同时也存在恶意和偏见的内容，没有什么清除训练数据负面部分的简单方法，即使是一个由数百人组成的团队也需要数十年的时间才能手动浏览庞大的数据集。只有通过建立一个额外的人工智能驱动的安全机制，OpenAI 才能控制这种危害，生产出适合日常使用的聊天机器人。

为了构建这样的系统，OpenAI 借鉴了 Facebook 等社交媒体公司的做法，思路很简单：构建一个额外的 AI 模型，向它提供带有暴力、仇恨言论等标签的示例，让它学会识别有害内容。该检测器会被内置到 ChatGPT 中，以检测输出内容是否反映了其训练数据的问题，并在它到达用户之前将其过滤掉。它还可以帮助人们给未来 AI 模型的训练数据集中清除有毒文本。

为了获得这些标签，OpenAI 在 2021 年 11 月开始向肯尼亚的一家外包公司发送了数万个文本片段。其中大部分文本似乎是从互联网最黑暗的角落提取的。其中一些以生动的细节描述了各种情况。OpenAI 在肯尼亚的外包合作伙伴是 Sama，这是一家总部位于旧金山的公司，在肯尼亚、乌干达和印度雇用员工为谷歌、Meta 和微软等硅谷客户标记数据。

Sama 将自己定位为一家「有道德的」AI 公司，并声称已帮助超过五万人摆脱了贫困。

根据资历和表现，Sama 代表 OpenAI 雇用的数据标注员的实得工资约为每小时 1.32 美元至 2 美元。对于这个故事，时代周刊审查了数百页 Sama 和 OpenAI 的内部文件，包括员工的工资单，并采访了参与该项目的四名 Sama 员工。出于对生计的担忧，所有人都不愿透露姓名。

为 AI 做标注是个体力活，此前这种工作时而会被媒体报道，在模型体量不断膨胀的当前，为 ChatGPT 进行标注的故事让我们得以感受到 AI 领域另一面的现状，它在使 AI 技术能为公众使用的过程中发挥了至关重要的作用。

「尽管这些数据人员发挥了基础性作用，但越来越多的研究揭示了这些工人面临的不稳定工作条件，」OpenAI 所属的 AI 组织联盟 the Partnership on AI 表示。「这可能是在庆祝技术效率提升时试图隐藏 AI 对庞大劳动力的依赖的结果。」

OpenAI 没有透露与它合作的外包商的名字，我们也不清楚除 Sama 之外，OpenAI 是否与其他数据公司在此项目上合作过。

在一份声明中，OpenAI 的一位发言人证实了肯尼亚的 Sama 员工为其正在构建的一种检测有害内容的工具做出了贡献，且该工具最终被内置到 ChatGPT 中。该声明还表示，这项工作有助于从 ChatGPT 等工具的训练数据集中删除有害数据。「我们的使命是确保通用人工智能造福全人类，我们努力构建安全可用的人工智能系统，限制偏见和有害内容，」发言人表示。「对有害『文本和图像』进行分类和过滤，是减少训练数据中包含暴力和色情内容数量以及创建可检测有害内容的工具的必要步骤。」

虽然目前科技领域因为经济低迷预期增长速度有所放缓，但投资者仍在竞相向 AIGC（智能内容生产）投入大量资金和精力，OpenAI 是科技行业中无可争议的领导者。人们乐观地估计认为，计算机生成的文本、图像、视频和音频将改变无数行业的运行方式，从而提高从创意艺术、法律到计算机编程等各个领域的效率。

然而，数据标注员的工作条件揭示了这幅未来图景的阴暗面：尽管 AI 实现了突破，但它往往依赖于低价的人力劳动，而这些劳动往往具有破坏性和剥削性。即使他们的工作为价值数十亿美元的行业做出贡献，这些隐形工人仍然处于边缘地位。

一位负责为 OpenAI 阅读和标记文本的 Sama 工作人员表示，他在阅读了一些需要标注的负面内容后反复出现幻觉。「那是一种折磨，」他说。「整个星期你都会读到很多这样的内容。到周五的时候，你会因为想那张照片而感到不安。」这项工作的创伤性最终导致 Sama 在 2022 年 2 月取消了其为 OpenAI 所做的所有工作，比计划提前了八个月。

Sama 签约的合同

媒体调查显示，OpenAI 在 2021 年底与 Sama 签署了三份总价值约 20 万美元的合同，为性虐待、仇恨言论和暴力的文本描述添加标签。三十余名工人被分成三个小组专注于每个主题。三名员工告诉时代周刊，他们预计每 9 小时轮班阅读和标记 150 至 250 段文字。这些片段的范围从大约 100 个单词到 1000 词不等。四名被采访者均描述了这项工作在精神上留下的伤痕。虽然他们有权参加「健康」顾问的会议，但所有人都表示，由于工作效率的高要求，这些会议没有帮助而且很少见。

Sama 发言人在一份声明中表示，员工只能参加小组会议的说法是「不正确的」。发言人说，员工有权与「受过专业培训并获得许可的心理健康治疗师」进行个人和小组会议。发言人补充说，这些治疗师随时都可以联系到。

合同规定，OpenAI 将向 Sama 支付 12.50 美元的小时费率，这是该项目的 Sama 员工每小时带回家的工资的六到九倍。据 Sama 三名员工称，代理人是最初级的数据标记员，占三个团队的大部分，他们的基本工资为每月 2.1 万肯尼亚先令（约 170 美元）。由于工作的明确性，他们每月还会收到价值约 70 美元的奖金，并会因达到准确性和速度等关键绩效指标而获得佣金。

一名工作 9 小时轮班的代理人预计税后每小时总收入至少为 1.32 美元，如果超过所有目标，则最高可达每小时 1.44 美元。质量分析师 —— 更高级的标签员，他们的工作是检查代理人的工作 —— 如果他们达到所有目标，他们每小时最多可以赚 2 美元。（肯尼亚没有普遍的最低工资标准，但当时这些工人受雇在内罗毕，最低工资是每小时 1.52 美元。）

在一份声明中，Sama 的一位发言人表示，工人被要求每 9 小时轮班标记 70 篇文本段落，而不是最多 250 篇，而且工人税后每小时的收入在 1.46 美元到 3.74 美元之间。该发言人拒绝透露哪些职位的薪水会达到该范围的最高水平。该发言人补充说：「该项目 12.50 美元的费率涵盖了所有成本，例如基础设施费用，以及员工及其全职质量保证分析师和团队负责人的工资和福利。

OpenAI 发言人则在一份声明中表示，该公司没有发布任何生产力目标，Sama 负责管理员工的薪酬和心理健康规定。该发言人补充说：「我们非常重视员工和承包商的心理健康。我们之前的理解是 Sama 提供健康计划和一对一的心理咨询，员工可以选择退出任何工作而不会受到惩罚，暴露露骨内容是有限制的，敏感信息将由经过专门培训的员工处理。」

在日常数据标记工作中，有时会出现边缘案例，这表明教机器理解细微差别的难度很大。

OpenAI 与 Sama 的关系是如何破裂的？

2022 年 2 月，Sama 和 OpenAI 开展了一项合作，但合作过程并不愉快。起初，Sama 为 OpenAI 的一个单独项目进行试点工作：收集色情和暴力图像（其中一些根据美国法律是非法的）提供给 OpenAI。其中，标记图像的工作似乎与 ChatGPT 无关。

OpenAI 发言人没有具体说明该公司从 Sama 寻求这些图像的目的，但 OpenAI 在一份声明中表示标记有害图像是让其 AI 工具更安全的「必要步骤」。

根据《时代周刊》报道，一份账单文件显示 2 月 Sama 给 OpenAI 交付了一批 1400 张图像的样本，OpenAI 共向 Sama 支付了 787.50 美元。

但很快，Sama 就取消了为 OpenAI 所做的所有工作 —— 比合同约定的时间提前了八个月。Sama 在一份声明中表示，其为 OpenAI 收集图像的协议中没有提及任何非法内容，而且是在工作开始后，OpenAI 才向 Sama 发送了「附加说明」，其中提及「一些非法类别」。Sama 公司决定立即结束这项「图像分类」合作，并取消所有剩余的 OpenAI 项目。

今年 1 月 10 日，Sama 宣布将取消所有涉及敏感内容的剩余工作。此外，该公司还表示不会与 Facebook 续签价值 390 万美元的内容审核合同，这将导致内罗毕大约有 200 个工作岗位流失。

Sama 公司在一份声明中表示：「在与我们的全球团队进行多次讨论后，Sama 决定退出『自然语言处理』及其内容审核工作，专注于构建计算机视觉数据标注解决方案。过去一年，我们一直在与客户合作过渡这些业务，并将于 2023 年 3 月完成所有变更。」

然而，人工智能系统仍然需要人工标记数据，至少目前是这样。就像人工智能伦理学家 Andrew Strait 最近在推特上说的：「ChatGPT 等生成模型并不神奇，它们依赖于大量的人力供应链和搜集数据，其中大部分数据是未经授权和未经同意使用的。而 OpenAI 并没有解决这些严重的基础问题。」

参考内容：

https://www.reddit.com/r/MachineLearning/comments/10gtruu/n_openai_used_kenyan_workers_on_less_than_2_per/

https://time.com/6247678/openai-chatgpt-kenya-workers/

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载ECCV 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看