LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。
官方教程:https://github.com/HIT-SCIR/ltp/blob/master/docs/quickstart.rst
官方文档:http://ltp.ai/docs/appendix.html
安装
与pyltp不同,ltp4无需安装繁琐的vc环境,也不用考虑python版本对轮子兼容的问题。
pip install ltp
在github源代码中可以发现作者主要使用了Electra预训练模型,并使用了transformers库调用模型。所以在安装pyltp之前我们要确保本机上安装的库与ltp中使用的库版本一致,当然如果本机环境并没有安装相应库,安装ltp时会自动安装。
- torch>=1.2.0
- transformers>=4.0.0, <5.0
- pygtrie>=2.3.0, <2.5
下载预训练模型参数
模型下载地址:https://github.com/HIT-SCIR/ltp/blob/master/MODELS.md
在使用ltp时需要选择适合任务大小的模型,将下载下来的压缩文件解压放入文件夹中即可
ltp的使用
加载模型
ltp = LTP(path='pretrained_model') # 默认加载 Small 模型
path中填入模型参数放入的文件夹
分句
sents = ltp.sent_split(["该僵尸网络包含至少35000个被破坏的Windows系统,攻击者和使用者正在秘密使用这些系统来开采Monero加密货币。该僵尸网络名为“ VictoryGate”,自2019年5月以来一直活跃。"])
print('分句:')
for sent in sents:
print(sent)