MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 阅读笔记
2021 Association for Computational Linguistics低资源语言的命名实体识别(NER)是一个既实用又具有挑战性的研究问题。本文研究了跨语言NER的zero-shot transfer问题,特别是在源语言训练数据量也有限的情况下。本文首先提出了一种简单而有效的标记序列翻译方法,将源语言训练数据翻译为目标语言,避免了词序变化和实体跨度确定等问题。利用源语言数据和翻译后的数据,引入了一种基于生成的多语言数据增强方法,通过生成多种语言的合成标记数据来进一步增加多样性。这些增强
原创
2022-07-23 23:52:51 ·
339 阅读 ·
0 评论