pyltp基本组件的使用

1.分句

from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看?我就趴在窗口上看呗!元芳你怎么这样子了?我哪样子了?')
sents = '\n'.join(sents)   #不经过此处处理直接输出会报错 原因是没有给出输出的格式  当然 sents = '|'.join(sents)是用“|”分割的
print(sents)

输出结果:

元芳你怎么看?
我就趴在窗口上看呗!
元芳你怎么这样子了?
我哪样子了?

2.分词

import os
from pyltp import Segmentor

LTP_DATA_DIR = r'C:\Users\22843\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyltp-0.2.1.dist-info\ltp_data'   # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径, 模型名称为'cws.model'

segmentor = Segmentor()  #初始化实例
segmentor.load(cws_model_path)   #加载模型
words =segmentor.segment('元芳你怎么看')  #分词  返回类型值是native的VectorOfString类型,可以使用list转换为Python列表
print(type(words))   #分词类型
words = '|'.join(words)
print(type(words))
print(words)
segmentor.release()   #释放模型

输出结果:

<class 'pyltp.VectorOfString'>
<class 'str'>
元芳||怎么|

使用分词外部词典:
首先建立一个外部的词典文件:plain.txt

苯并芘
亚硝酸盐

代码:

import os
from pyltp import Segmentor

LTP_DATA_DIR = r'C:\Users\22843\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyltp-0.2.1.dist-info\ltp_data'   # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径, 模型名称为'cws.model'

segmentor = Segmentor()  #初始化实例
segmentor.load_with_lexicon(cws_model_path,'plain.txt')   #加载模型
words =segmentor.segment('亚硝酸盐是一种化学物质')  #分词  返回类型值是native的VectorOfString类型,可以使用list转换为Python列表
print(type(words))   #分词类型
words = '|'.join(words)
print(type(words))
print(words)
segmentor.release()   #释放模型

运行结果:

<class 'pyltp.VectorOfString'>
<class 'str'>
亚硝酸盐|||
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值