本文是LLM系列文章,针对《PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition》的翻译。
摘要
在这项研究中,我们旨在减少使用大型语言模型(LLM)进行命名实体识别(NER)的生成延迟。LLM中高延迟的主要原因是顺序解码过程,该过程自回归地生成NER的所有标签和提及,显著增加了序列长度。为此,我们在用于NER的LLM中引入了并行解码(PaDeLLM-NER),这是一种无缝集成到现有生成模型框架中的方法,无需额外的模块或架构修改。PaDeLLM-NER允许同时解码所有提及,从而减少生成延迟。实验表明,对于英语和汉语,PaDeLLM-NER显著提高了推理速度,比自回归方法快1.76到10.22倍。同时,它保持了预测的质量,在各种数据集中的性能与最先进的技术不相上下。