标注数据少的方法 —— 词汇增强

最新推荐文章于 2023-06-09 07:58:59 发布

ywm_up

最新推荐文章于 2023-06-09 07:58:59 发布

阅读量637

点赞数

分类专栏： NLP/ML/DL 文章标签：词汇增强标注数据

原文链接：https://zhuanlan.zhihu.com/p/342032812

版权

NLP/ML/DL 专栏收录该内容

49 篇文章 7 订阅

订阅专栏

参考链接：
【关于中文领域 NER】那些的你不知道的事
 打开你的脑洞：NER如何进行数据增强？
标注样本少怎么办？「文本增强+半监督学习」总结（从PseudoLabel到UDA/FixMatch）

1. 中文NER的难点（和英文的区别）

和英文NER每个单词都使用空格分隔不同，中文 NER 是基于字的表示方法，所以一般会涉及到中文分词和中文NER技术，导致中文 NER 技术容易受到中文分词的误差的影响。

那么常用的方法有哪些呢？

词汇增强：在早期的中文NER技术中，基于字符的 NER 方法往往具有高于基于词汇（分词后）的方法，为了提高基于词汇方法的效果，一般会采取引入词汇信息（词汇增强）的方法；
词汇/实体类型信息增强：使用特殊标记来识别句子中单词的边界，修改后的句子将由BERT直接编码。

2. 词汇增强

2.1 什么是词汇增强？

词汇增强：引入词汇信息（词汇增强）来增强模型识别句子中实体的方法。

虽然基于字符的NER系统通常好于基于词汇（经过分词）的方法，但基于字符的NER没有利用词汇信息，而词汇边界对于实体边界通常起着至关重要的作用。

如何在基于字符的NER系统中引入词汇信息，是近年来NER的一个研究重点。本文将这种引入词汇的方法称之为「词汇增强」，以表达引入词汇信息可以增强NER性能。

从另一个角度看，由于NER标注数据资源的稀缺，BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上，词汇增强的方法会好于或逼近BERT的性能。因此，关注「词汇增强」方法在中文NER任务很有必要。

词汇增强模型

Dynamic Architecture

Lattice LSTM
LR-CNN
FLAT

Adaptive Embedding 范式

WC-LSTM
Multi-digraph
Simple-Lexicon

词汇/实体类型信息增强

LEX-BERT

论文：
Lattice LSTM：Chinese NER Using Lattice LSTM（ACL2018）

FLAT: Chinese NER Using Flat-Lattice Transformer（ACL2020）

WC-LSTM: An Encoding Strategy Based Word-Character LSTM for Chinese NER Lattice LSTM（NAACL2019）

Multi-digraph: A Neural Multi-digraph Model for Chinese NER with Gazetteers（ACL2019）

Simple-Lexicon：Simplify the Usage of Lexicon in Chinese NER（ACL2020）

Lex-BERT: Enhancing BERT based NER with lexicons

COLING20：《An Analysis of Simple Data Augmentation for Named Entity Recognition》

EMNLP20：《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。