python版本官方项目地址pyLTP
官方文档
本机环境:ubuntu16.04 python3.6
安装项目代码与模型文件 官方地址
在home目录下安装项目代码与模型文件,文件夹名称分别为 pyltp 与 ltp_data_v3.4.0
在pyltp目录下,新建三个文件夹sourceWords,targetWords,zidian,script分别存放原语料,目标语料,字典文件,模型文件(将刚才下载好的模型文件放到该目录下)
同时创建分词的py文件 setup.py
代码如下
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = './script' # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型路径,模型名称为`cws.model`
from pyltp import Segmentor
segmentor = Segmentor() # 初始化实例
segmentor.load_with_lexicon(cws_model_path, './zidian/kong.txt') # 加载模型,第二个参数是您的外部词典文件路径
f = open('.