Conll2003相关数据集是基于新闻的(命名实体识别NER和实体识别任务的语料库集合 | INFORX (inforscan.com))
1# TENER: Adapting Transformer Encoder for Named Entity Recognition
AIM:看改进的transformer的自适应编码
code:https://github. com/fastnlp/TENER.
基于conll2003数据集。
改进两个方面,主要都是在encoder位置。
没理解character-level和word-level的encoder区别,需要check一下。
补充character-level encoder
to alleviate the data sparsity and OOV problem in word representation.缓解在单词表示时数据稀疏和OOV问题。
对比模型,一个是transformer在两个level维度都用到transformer,还一个是利用改进的自适应编码(注意方向和位置的aen),以及利用cnn进行character-level编码,三个对比。
整体还对比了利用ELMO进行embed的F1效果。
主要改进:分word-level和character-level两个维度分别进行encoder的替换改进。
如果要参考加的transformer自适应编码,要再去看他的中间公式计算,暂时没看,只看了大概含义。