2021-07-05

Ontonote4 pre-process代码

Ontonotes4.0命名实体识别预处理程序
做自然语言处理命名实体方向的,一般会用到Ontonotes4.0(5.0)数据集。但是,Ontonotes数据集原始数据是用类XML标记的,不能直接用于神经网络模型(LSTM,Transformer),需要进行预处理成BIO/BMES格式。5.0已经有Scripts了。在这里,我分享一份根据原始论文http://www.aclweb.org/anthology/N13-1006
的方法中文部分进行分割数据集(train,dev,test)处理(转BMES/BIO)原始数据集的预处理程序。
邮箱: smj13343328801@163.com
Ontonotes数据集大家可自行去LDC官网申请,尊重版权©。仅提供预处理程序。欢迎大家关注哈!也欢迎分享交流!

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值