对于那些不精通机器学习的人来说,像 ChatGPT 所基于的 GPT-3.5 这样的大型语言模型似乎是自给自足的。这些模型通过无监督或自我监督学习进行训练。简而言之,只需极少的人工干预,就能生成一个能像人类一样对话的模型。
这就引出了一个问题--数据标注对大型语言模型还有意义吗?
对于机器学习团队、项目经理和企业来说,忽视数据标注的重要性是不明智的。从表面上看,大型语言模型(LLM)似乎能够胜任任何任务,但现实却并非如此。
本文将探讨数据标注与大型语言模型之间的互利关系。
1. 什么是数据标注
在正式开始前我们先简单介绍下数据标注和常用场景
数据标注是对数据中的特定元素进行识别、描述和分类,以训练机器学习模型的过程。标注后的数据将用于处理、预测基础模型或者对真实生活数据进行响应。它有助于模型或神经网络学习并做出决策,从而产生所需的结果。
例如,OCR系统需要识别原始数据中的个人身份信息。为此,标注人员会在训练样本上标注姓名、身份证和联系方式。然后,机器学习工程师用数据集训练模型,以实现OCR实体识别,并从存储的文档中提取个人详细信息。
数据标注看似简单,但各种参数可能会影响标注结果和模型性能。因此,ML 团队使用数据标注软件来支持他们创建准确、高性能的模型。
2. 数据标注常用使用场景
早在LLM或者生成式人工智能出现之前,数据标注就已经在机器学习模型的训练中发挥了关键作用。
- ML 工程师对数据进行标注,以支持命名实体识别、翻译和情感分析等自然语言处理 (NLP) 任务。
- 在训练图像识别系统以检测和分类物体时,标注也很有帮助。
- 医疗保健系统利用标注数据训练神经网络,以便从成像数据中诊断疾病。
- 金融业利用各种数据集训练模型