Pyltp安装以及利用Pyltp进行命名实体识别

本文档详细介绍了如何安装Pyltp,包括通过wheel文件安装和下载model数据。接着,展示了如何利用Pyltp进行命名实体识别,强调了BIESO标注体系,并提供了具体的程序示例,包括分词、词性标注和实体提取的过程,同时提到了在处理过程中如何去除噪声和处理重复实体的方法。
摘要由CSDN通过智能技术生成

pyltp环境的搭建:
在终端安装pyltp时一般会报错:
在这里插入图片描述
使用wheel方法:

  1. 下载wheels
    下面两个文件针对不同的python版本下载一个即可
    python-3.5: pyltp-0.2.1-cp35-cp35m-win_amd64.whl
    https://pan.baidu.com/s/1Ekx3dHVzt5raXtiuH-S9qw

    python-3.6: pyltp-0.2.1-cp36-cp36m-win_amd64.whl
    https://pan.baidu.com/s/19ND7L6baJoAKNQtfSDXEZA

  2. 安装wheel
    下载好以后,在命令行下,cd到wheel文件所在目录,
    然后使用命令 pip install wheel文件名 进行安装

  3. 测试
    安装好了以后,使用一下:
    在这里插入图片描述

  4. 下载model数据
    下载地址:
    https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F
    在文件夹Itp_data_v3.4.0中存放在分句,分词,词性标注,命名实体识别等的model文件,将该文件夹放到任意方便调用的地方即可,因为程序里需要自己主动调用

pyltp进行命名实体识别:
利用pyltp进行命名实体识别,首先需要对所操作的文本进行分词和词性标注,官方对于命名实体识别的实例如下:
在这里插入图片描述
LTP 采用 BIESO标注体系。B 表示实体开始词,I表示实体中间词,E表示实体结束词,S表示单独成实体,O表示不构成命名实体。
LTP 提供的命名实体类型为:人名(Nh)、地名(Ns)、机构名(Ni)。
B、I、E、S位置标签和实体类型标签之间用一个横线 - 相连;O标签后没有类型标签。

命名实体识别程序:

# coding=UTF-8
#打开需要命名实体识别的文本
with open(r'chn.txt', encoding="UTF-8", errors='ignore') as file_object:
    sss =
  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值