探索 LLMs 在数据标注中的应用潜力:观察、思考与前景展望

本文旨在提供一份简单易懂的技术总结,介绍有关使用 LLMs 对数据进行标注的研究。我们将探讨当前关于使用 LLMs¹ 标注文本数据的观点,以及在实践中使用该技术方案时需要注意的事项。

文章总览:

  • 为什么使用 LLMs 进行数据标注?
  • 当前业界主流观点
  • 使用 LLMs 进行数据标注时需要注意哪些事项
  • Summary | TL;DR

图片

Source: Pexels

01 为什么使用 LLMs 进行数据标注?

高质量的标注数据是训练和评估各种机器学习模型的基础。 目前,最常见的数据标注方法是雇佣众包工人(例如 Amazon Mechanical Turk),或在涉及专业知识时雇佣相关领域专家。

这些方法可能相当昂贵且极其耗时,因此很多人开始想了解是否可以使用 LLMs 完成数据标注工作。对于预算有限的企业,可以通过构建满足其特定需求的专用数据标注模型(specialised models)来完成数据标注需求。在医学等较为敏感的领域,可以通过让相关领域专家审查和修正 LLM 的标注内容来加快标注流程,而不是从头开始进行数据标注。

此外, 卡内基梅隆大学(Carnegie Mellon) 和 谷歌(Google)的研究人员还发现,保护人工标注者免受标注过程中(例如仇恨言论)造成的心理伤害,以及保证数据中观点的多样性,也是行业推动使用 LLMs 进行数据标注的动机之一。

02 当前业界主流观点

关于 LLMs 是否有潜力成为优秀的数据标注工具,各项研究的意见不一。虽然一些研究对其能力持乐观态度,但也有一些研究持怀疑态度。表 1 概述了十二项相关研究的研究方法和研究结论。您可以在本文末尾的参考文献中找到这些内容的出处。

图片

表 1 — z: zero-shot,f: few-shot,z&f: zero&few-shot;en+: 主要为英文语料 | 图片由原文作者提供

2.1 模型²

表 1 中的 Model Families 列元素数量显示 —— 大多数研究只测试了一个 Model Families。查看使用的具体模型可以发现,除了研究[7][11]外,几乎所有研究都使用了 GPT。 研究[7]是唯一专注于探索开源 LLMs 的研究(见表2)。

图片

表 2 | 图片由原文作者提供

2.2 数据集

表 1 的 Number of Datasets 列介绍了该研究用于数据标注的数据集数量。不同的研究所探索的任务不同,因此也探索使用了不同的数据集。大多数研究在多个数据集上进行了性能测试。研究[3]通过在20个不同数据集上测试 LLM 的分类性能(LLM classification performance)而显得特别突出。关于数据集的更多细节,请在下方的表 3 中寻找,应当可以帮助您找到最相关的研究。

图片

表 3 | 图片由原文作者提供

如果一开始手头没有标注数据:请寻找、查看现有的与目标任务类似的标注数据集(labelled datasets),并用 LLM 对其进行标注。通过详细分析错误和潜在问题(the errors and potential issues),将 LLM 生成的标签与人工标注的标签进行比较。这样,就能够帮助我们了解 LLM 在目标任务中的表现,以及是否值得投入时间和其他成本。

2.3 Perspectivist Approach

Perspectivist Approach 简单来说就是认识到理解数据集或解决问题(understand a dataset or solve a problem)没有一种“唯一正确”的方法。从不同的角度看问题可以带来不同的见解(insights)或解决方案(solutions)。在传统方法中,大多数数据集都是使用 majority voting approach(译者注:会让多个人(如专家或众包工人)为同一个数据样本打上标签。由于每个人的判断可能有出入,最终需要一种机制来确定这个数据样本的“ground truth”(真实标签)。在传统的数据标注过程中,这种机制通常为“少数服从多数”。)进行标注,这意味着最常被选择的标签被视为“ground truth”(真实标签)

图片

Majority Voting Vs. Perspectivist Approach | 图片由原文作者提供

在表 1 中,根据研究采用的是 majority voting 方法还是 perspectivist mindset 方法,对数据标注方法进行了分类。可以看到,大多数研究都采用了 majority voting 方法进行数据标注工作。

2.4 真的可以将 LLMs 使用为数据标注工具?

最后一列总结了每项研究的结果,打勾☑️表示该研究倾向于认为 LLMs 可以在数据标注过程中发挥作用。虽然有些研究对其潜力非常乐观,甚至认为完全可以取代人工标注者,但也有一些研究认为它们更适合作为辅助工具,而不是完全替代人类进行数据标注。即便在这些持积极态度的研究中,也有些任务场景是 LLMs 表现不够出色的。

此外,有三项研究(其中两项采用了 perspectivist approach 方法)得出结论认为 LLMs 不适合用于数据标注。另一项研究(未在表中记录)采用了不同的方法,表明目前通过单一奖励函数(single reward function)对 LLMs 进行对齐的方法,并不能反映不同人类子群体(human subgroups)的偏好多样性(diversity of preferences),特别是少数群体的观点。

03 使用 LLMs 作为标注工具时需要考虑的事项

3.1 Prompting: Zero vs. Few-shot

直接从 LLMs 中获得非常有意义的模型响应可能颇具挑战。那么,如何最有效地通过提示词让 LLM 来标注数据集呢? 从表 1 中我们可以看到,上述研究探讨了 zero-shot 或 few-shot prompting (译者注:Zero-shot prompting 不向语言模型提供任何相关示例,直接向模型发送自然语言的问题或指令,让模型自行生成答案或执行任务。没有提供任何“示例”说明预期的输出应该是什么样的。Few-shot prompting 在prompt中包含了少量的“示例”内容,告诉大模型用户期望的输出格式和风格是什么样的。),或两者兼而有之。Zero-shot prompting 要求 LLM 在没有任何示例的情况下回答问题。而 Few-shot prompting 则在提示词中包含多个示例,以便 LLM 能理解用户期望的回答格式:

图片

至于哪种方法效果更好,研究结果各不相同。一些研究在解决目标任务时采用 few-shot prompting,另一些则采用 zero-shot prompting 。因此,我们可能需要探索哪种方法最适合我们的任务场景和使用的模型。

如果你想知道如何学习撰写提示词(Prompt),Sander Schulhoff 和 Shyamal H Anadkat 创建了 LearnPrompting[1],可以帮助我们学习有关提示词的基础知识和更高级的技巧。

3.2 LLMs 对提示词的敏感程度

LLMs 对 prompt(提示词)的细微变化非常敏感。 改变 prompt 中的一个词可能就会影响模型响应。如果想要尽量应对这种变化,可以参考研究[3]的做法。首先,由 task expert (译者注:对任务所在领域有深入理解的领域专家。)提供初始提示词。然后,使用 GPT 生成 4 个意义相似的提示词,并对这 5 个提示词的模型响应的内容评估指标取平均值。或者,我们也可以尝试使用 signature[2] (译者注:一种自动化的提示词生成方式,可以理解为一种参数化的提示词模板。)代替人工输入的提示词,并让 DSPy[3] 来优化提示词,如 Leonie Monigatti 的博客文章内容[4]所示。

3.3 如何选择用于数据标注的模型?

选择哪个模型来标注数据集?有几个因素需要考虑。让我们简要谈谈一些关键的考虑因素:

  • 开源 vs. 闭源:是选择最新的、性能最好的模型?还是更注重定制化开源模型?需要考虑的因素包括预算、性能要求、是否需要定制、是否需要拥有模型所有权、安全需求以及社区支持要求等方面。
  • 保护措施(Guardrails) :LLMs 配备了防止产生不良信息或有害内容的保护措施。如果目标任务涉及敏感内容,模型可能会拒绝标注这些数据。 而且,不同 LLMs 的保护措施强度不一,因此需要不断进行探索和比较,找到最适合目标任务的数据标注模型。
  • 模型大小(Model Size) :LLMs 有不同的 size ,较大的模型可能表现更好,但也需要更多的计算资源。如果你想要使用开源 LLMs 但是计算资源有限,可以试试使用模型量化技术[5]。就闭源模型而言,目前较大的模型每次使用的成本更高。但较大 size 的模型一定更好吗?

3.4 模型存在的偏见问题

根据研究[3],较大的、经过指令微调的³(instruction-tuned)模型在数据标注性能方面表现更优越。 然而,该研究并未评估其模型输出中是否存在偏见。另一项研究表明,偏见会随着模型规模(scale)和上下文模糊程度(ambiguous contexts)的增加而增加。 有几项研究还警告说,LLMs 有左倾倾向,并且在准确代表少数群体(如老年人或少数宗教)的观点方面能力有限。总体来看,当前的 LLMs 存在相当大的文化偏见(cultural biases),并且在看待少数群体的相关问题时存在刻板印象。这些都是在项目各个阶段需要根据目标任务考虑的问题。

图片

“默认情况下,LLM 的响应更类似于某些群体的观点,如来自美国、某些欧洲和南美洲国家的群体” — 摘自研究[2]

3.5 模型参数:Temperature

表 1 中的大多数研究都提到了 temperature 参数,该参数主要用于调整 LLMs 输出内容的“创造力”表现。研究[5]和[6]在较高和较低的 temperature 参数值下进行了实验,发现使用较低的 temperature 参数值时 LLMs 响应的一致性更高(译者注:对于同一提示词输入,模型在不同时刻生成的响应彼此之间的差异较小,更加一致),同时不影响准确性。因此,他们建议在数据标注任务中使用较低的 temperature 参数值。

3.6 使用 LLMs 进行数据标注任务存在语言方面的限制

如表 1 所示,大多数研究都评估了 LLMs 在英语数据集上的标注性能。研究[7]探索了法语、荷兰语和英语数据集的性能,发现非英语语言的标注性能显著下降。 目前,LLMs 在英语数据集中的表现更好,但也有其他方法尝试将这种优势扩展到非英语语言。包括 Aleksa Gordić 开发的 YugoGPT[6](用于塞尔维亚语、克罗地亚语、波斯尼亚语、黑山语)和 Cohere for AI 的 Aya[7](支持101种不同语言)。

3.7 分析人类的标注内容,来窥探和理解人类在做出某些判断时的内在推理逻辑和行为动机

除了简单地请求 LLM 为数据打上标签外,我们还可以要求其为所选择的标签提供一段解释。研究[10]发现,GPT 提供的解释内容与人类的解释内容相当,甚至更为清晰。 然而,卡内基梅隆大学和谷歌的研究人员指出,LLMs 尚未能模拟人类的决策过程[8],在标签的选择决策过程中也未表现出类似人类的行为[9]。他们发现,经过指令微调的模型更无法表现出类似人类的行为,因此他们认为在标注流程中, 不应当使用 LLMs 来替代人类。在目前的阶段,作者建议谨慎使用大语言模型(LLM)生成的自然语言解释内容。

“使用 LLMs 替代标注员会影响三种价值观:参与者利益的代表性(译者注:如果完全由 LLM 生成自然语言解释内容,可能无法充分代表参与标注任务的人员(如专家、工人等)的真实利益和关切点。);人类在开发过程中的参与权、发言权、主导权和决策权。” — 摘自 Agnew(2023)

04 Summary | TL;DR

图片

使用 LLMs 进行数据标注优点与缺点 | image by author

  • 对于那些预算有限、任务相对客观的情况,使用 LLM 进行数据标注是一个不错的选择,在这些任务中,一般关注的是最可能的标签。 在意见可能存在较大分歧的主观任务中,对正确标签(correct label)的看法可能会大相径庭,这时就要小心了!
  • 避免使用 LLMs 来模拟人类的内在推理逻辑和行为动机。
  • 对于更关键的任务(如医疗保健领域任务),可以使用 LLMs 来加速标注过程,让人类来纠正已标注的数据;但千万不要让人类完全脱离数据标注过程!
  • 批判性地评估标注方案,检查是否存在偏见和其他问题,并考虑这些错误可能带来的麻烦是否值得。

这篇文章并非对使用 LLMs 和人工标注进行详尽的比较。如果您有其他资料或在使用 LLM 进行数据标注的个人经验,烦请在评论中留言分享。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.2.1 什么是Prompt
    • L2.2.2 Prompt框架应用现状
    • L2.2.3 基于GPTAS的Prompt框架
    • L2.2.4 Prompt框架与Thought
    • L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
    • L2.3.1 流水线工程的概念
    • L2.3.2 流水线工程的优点
    • L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
    • L3.1.1 Agent模型框架的设计理念
    • L3.1.2 Agent模型框架的核心组件
    • L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
    • L3.2.1 MetaGPT的基本概念
    • L3.2.2 MetaGPT的工作原理
    • L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
    • L3.3.1 ChatGLM的特点
    • L3.3.2 ChatGLM的开发环境
    • L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
    • L3.4.1 LLAMA的特点
    • L3.4.2 LLAMA的开发环境
    • L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

  • 34
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值