基于ELMO的序列标注问题(命名实体识别)

Elmo NER

使用的数据来自2019年的“达观杯”的比赛,这个比赛是采用了数字编码进行文本脱敏处理,所以无法直接使用大型的预训练语言模型去Fine-tune。然而想要对文本的特征进行更好的抽取,传统的Word2Vec的方法显然有些过于简单,

赛事官网: https://biendata.com/competition/datagrand/

训练ELMO

ELMO是一种预训练语言模型,是NAACL 2019的最佳论文Deep contextualized word representations,首次将两阶段的预训练方法引入NLP。
allen实验室发布的代码详细介绍了如何使用bilm训练自己的语言模型,其中有两种文本输入方式:

  1. 基于char level的表示,字符级的表示,对char embedding做卷积
  2. 基于word level的表示

从实验效果来看,char level的语言模型收敛更快,性能更好。

Requirements

TensorFlow=1.12
h5py

Pretrain

  1. 比赛官网下载corpus.txt&#
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值