使用哈工大LTP分词工具进行批量中文分词 python3版本

最新推荐文章于 2023-11-09 10:43:47 发布

kudou1994

最新推荐文章于 2023-11-09 10:43:47 发布

阅读量1w

点赞数 2

分类专栏： # 机器翻译学习神经机器翻译

本文链接：https://blog.csdn.net/kudou1994/article/details/90603543

版权

python版本官方项目地址pyLTP
官方文档
本机环境：ubuntu16.04 python3.6
安装项目代码与模型文件官方地址
在home目录下安装项目代码与模型文件，文件夹名称分别为 pyltp 与 ltp_data_v3.4.0
在pyltp目录下，新建三个文件夹sourceWords，targetWords，zidian，script分别存放原语料，目标语料，字典文件，模型文件（将刚才下载好的模型文件放到该目录下）
同时创建分词的py文件 setup.py

代码如下

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = './script'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load_with_lexicon(cws_model_path, './zidian/kong.txt') # 加载模型，第二个参数是您的外部词典文件路径
f = open('.