平民级NER︱pycrfsuite的介绍与应用

本文介绍了pycrfsuite在命名实体识别(NER)中的应用,包括其简单易用的特点,以及如何利用B-I-E-S-O标准格式进行训练集数据标注。讨论了训练集是否需要分词,并指出NER任务中分词的重要性。同时,文章还探讨了特征定义,特别是X_train和y_train的结构。
摘要由CSDN通过智能技术生成

1 前言

不知道哪篇文献中提及到了NER的几款最、最、最常见模型:
在这里插入图片描述
从图中可以看到,其实CRF和BiLSTM-CRF效果差距不大,本身能省事儿就省事儿的原理,用简单的CPU就可以跑的,pycrfsuite非常符合。

这个开源项目medical_ner_crfsuite已经说得蛮清楚了,而且代码+数据也开源了,笔者就不赘述了。

除了pycrfsuite,还有sklearn_crfsuite也是同样的,这个库的使用可以参考:NLP第15课:基于 CRF 的中文命名实体识别模型实现的代码。
课程里面也有练习与数据。

安装:

pip install python-crfsuite

2 训练集样式

2.1 B-I-E-S-O 标准格式

训练集数据标注:我使用的是IOB格式标注体系(采用了四个符号:B、I、E、O),使用txt文件

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值