pyltp基本组件的使用

最新推荐文章于 2024-09-11 20:45:20 发布

哆啦AI梦

最新推荐文章于 2024-09-11 20:45:20 发布

阅读量606

点赞数 2

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/m0_43425029/article/details/109831743

版权

1.分句

from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看？我就趴在窗口上看呗！元芳你怎么这样子了？我哪样子了？')
sents = '\n'.join(sents)   #不经过此处处理直接输出会报错 原因是没有给出输出的格式  当然 sents = '|'.join(sents)是用“|”分割的
print(sents)

输出结果：

元芳你怎么看？
我就趴在窗口上看呗！
元芳你怎么这样子了？
我哪样子了？

2.分词

import os
from pyltp import Segmentor

LTP_DATA_DIR = r'C:\Users\22843\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyltp-0.2.1.dist-info\ltp_data'   # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()  #初始化实例
segmentor.load(cws_model_path)   #加载模型
words =segmentor.segment('元芳你怎么看')  #分词  返回类型值是native的VectorOfString类型，可以使用list转换为Python列表
print(type(words))   #分词类型
words = '|'.join(words)
print(type(words))
print(words)
segmentor.release()   #释放模型

输出结果：

<class 'pyltp.VectorOfString'>
<class 'str'>
元芳|你|怎么|看

使用分词外部词典：
首先建立一个外部的词典文件：plain.txt

苯并芘
亚硝酸盐

代码：

import os
from pyltp import Segmentor

LTP_DATA_DIR = r'C:\Users\22843\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyltp-0.2.1.dist-info\ltp_data'   # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()  #初始化实例
segmentor.load_with_lexicon(cws_model_path,'plain.txt')   #加载模型
words =segmentor.segment('亚硝酸盐是一种化学物质')  #分词  返回类型值是native的VectorOfString类型，可以使用list转换为Python列表
print(type(words))   #分词类型
words = '|'.join(words)
print(type(words))
print(words)
segmentor.release()   #释放模型

运行结果：

<class 'pyltp.VectorOfString'>
<class 'str'>
亚硝酸盐|是|一|种

最低0.47元/天解锁文章

哆啦AI梦

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录