Elmo NER
使用的数据来自2019年的“达观杯”的比赛,这个比赛是采用了数字编码进行文本脱敏处理,所以无法直接使用大型的预训练语言模型去Fine-tune。然而想要对文本的特征进行更好的抽取,传统的Word2Vec的方法显然有些过于简单,
赛事官网: https://biendata.com/competition/datagrand/
训练ELMO
ELMO是一种预训练语言模型,是NAACL 2019的最佳论文Deep contextualized word representations,首次将两阶段的预训练方法引入NLP。
allen实验室发布的代码详细介绍了如何使用bilm训练自己的语言模型,其中有两种文本输入方式:
- 基于char level的表示,字符级的表示,对char embedding做卷积
- 基于word level的表示
从实验效果来看,char level的语言模型收敛更快,性能更好。
Requirements
TensorFlow=1.12
h5py
Pretrain
- 比赛官网下载corpus.txt&#