自然语言处理 其他

ICTCLAS中科院怎么用python

Python调用PYNIPIR(ICTCLAS)进行中文分词这里写链接内容

HanLP训练命名实体识别模型

目前HanLP中的命名实体识别主要通过HMM-角色标注模型来实现,由于这是一整套理论,所以HanLP实现了通用的抽象工具,并且通过其子类实现了人名、地名、机构名的模型训练。

本文将介绍通用的抽象工具,以及如何继承该工具实现常见命名实体识别模型的训练。在上述代码根据张华平老师的论文《基于角色标注的中国人名自动识别研究》中指定的规范,通过一些规则将每个单词的label转换了。由于是直接在原链表上进行转换,所以并不需要输出任何数据。
然后用户需要实现addToDictionary,该方法的目的是允许用户根据自己的业务逻辑确定哪些词语是模型需要的,哪些不是。

层叠HMM-Viterbi角色标注模型下的机构名识别

http://www.hankcs.com/nlp/ner/place-name-recognition-model-of-the-stacked-hmm-viterbi-role-labeling.html重点内容
HanLP中,还拓展了数词和方位词等等。
代码已集成到HanLP中开源:http://www.hankcs.com/nlp/hanlp.html

原理
基本原理请参考《实战HMM-Viterbi角色标注地名识别》,不再赘述。

与人名和地名识别稍有不同的是,在命名实体识别之前,需要先执行人名和地名识别,将粗分结果送入HMM模型求解,得出细分结果后才能进行,这是因为人名和地名也是机构名中的常见成分。这是与《实战HMM-Viterbi角色标注地名识别》《实战HMM-Viterbi角色标注中国人名识别》这两个姊妹篇最显著的不同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值