1.分句
from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看?我就趴在窗口上看呗!元芳你怎么这样子了?我哪样子了?')
sents = '\n'.join(sents) #不经过此处处理直接输出会报错 原因是没有给出输出的格式 当然 sents = '|'.join(sents)是用“|”分割的
print(sents)
输出结果:
元芳你怎么看?
我就趴在窗口上看呗!
元芳你怎么这样子了?
我哪样子了?
2.分词
import os
from pyltp import Segmentor
LTP_DATA_DIR = r'C:\Users\22843\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyltp-0.2.1.dist-info\ltp_data' # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型路径, 模型名称为'cws.model'
segmentor = Segmentor() #初始化实例
segmentor.load(cws_model_path) #加载模型
words =segmentor.segment('元芳你怎么看') #分词 返回类型值是native的VectorOfString类型,可以使用list转换为Python列表
print(type(words)) #分词类型
words = '|'.join(words)
print(type(words))
print(words)
segmentor.release() #释放模型
输出结果:
<class 'pyltp.VectorOfString'>
<class 'str'>
元芳|你|怎么|看
使用分词外部词典:
首先建立一个外部的词典文件:plain.txt
苯并芘
亚硝酸盐
代码:
import os
from pyltp import Segmentor
LTP_DATA_DIR = r'C:\Users\22843\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyltp-0.2.1.dist-info\ltp_data' # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型路径, 模型名称为'cws.model'
segmentor = Segmentor() #初始化实例
segmentor.load_with_lexicon(cws_model_path,'plain.txt') #加载模型
words =segmentor.segment('亚硝酸盐是一种化学物质') #分词 返回类型值是native的VectorOfString类型,可以使用list转换为Python列表
print(type(words)) #分词类型
words = '|'.join(words)
print(type(words))
print(words)
segmentor.release() #释放模型
运行结果:
<class 'pyltp.VectorOfString'>
<class 'str'>
亚硝酸盐|是|一|种