pyltp环境的搭建:
在终端安装pyltp时一般会报错:
使用wheel方法:
-
下载wheels
下面两个文件针对不同的python版本下载一个即可
python-3.5: pyltp-0.2.1-cp35-cp35m-win_amd64.whl
https://pan.baidu.com/s/1Ekx3dHVzt5raXtiuH-S9qwpython-3.6: pyltp-0.2.1-cp36-cp36m-win_amd64.whl
https://pan.baidu.com/s/19ND7L6baJoAKNQtfSDXEZA -
安装wheel
下载好以后,在命令行下,cd到wheel文件所在目录,
然后使用命令 pip install wheel文件名 进行安装 -
测试
安装好了以后,使用一下:
-
下载model数据
下载地址:
https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F
在文件夹Itp_data_v3.4.0中存放在分句,分词,词性标注,命名实体识别等的model文件,将该文件夹放到任意方便调用的地方即可,因为程序里需要自己主动调用
pyltp进行命名实体识别:
利用pyltp进行命名实体识别,首先需要对所操作的文本进行分词和词性标注,官方对于命名实体识别的实例如下:
LTP 采用 BIESO标注体系。B 表示实体开始词,I表示实体中间词,E表示实体结束词,S表示单独成实体,O表示不构成命名实体。
LTP 提供的命名实体类型为:人名(Nh)、地名(Ns)、机构名(Ni)。
B、I、E、S位置标签和实体类型标签之间用一个横线 - 相连;O标签后没有类型标签。
命名实体识别程序:
# coding=UTF-8
#打开需要命名实体识别的文本
with open(r'chn.txt', encoding="UTF-8", errors='ignore') as file_object:
sss =