论文速读|Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
论文信息:
简介:
本文探讨了如何利用大型语言模型(LLMs)生成用于训练和评估其他模型的文本数据。随着自然语言处理(NLP)技术的发展,训练自定义的自然语言分类模型变得越来越容易。然而,数据收集仍然是模型构建中成本较高的部分。现有的开源数据集可能无法匹配模型构建者的特定领域分布或不包含所需的标签,这导致模型构建者需要收集和标注新的数据,这可能非常耗时且昂贵。近年来,生成型大型语言模型(如GPT-3)的发展为创建分类模型的训练数据提供了新方法。模型构建