本文是LLM系列文章,针对《ProgGen: Generating Named Entity Recognition Datasets Step by step with Self Reflexive Large Language Models》的翻译。
摘要
尽管大型语言模型(LLM)在各个领域表现出显著的适应性,但这些模型在命名实体识别(NER)等结构化知识提取任务中往往达不到要求。本文探索了一种创新的、具有成本效益的策略,以利用具有适度NER能力的LLM来生成卓越的NER数据集。我们的方法与基本类条件提示不同,它指示LLM对特定领域进行自我反思,从而生成与领域相关的属性(如电影评论的类别和情绪),用于创建属性丰富的训练数据。此外,我们先发制人地生成实体术语,然后围绕这些实体开发NER上下文数据,有效地绕过了LLM复杂结构的挑战。我们在通用和市场定位领域的实验表明,与传统的数据生成方法相比,性能显著增强,同时比现有的替代方法更具成本效益。
1 引言
2 相关工作
3 方法
4 实验
5 结论
我们介绍了ProgGen,