使用哈工大LTP分词工具进行批量中文分词 python3版本

python版本官方项目地址pyLTP
官方文档
本机环境:ubuntu16.04 python3.6
安装项目代码与模型文件 官方地址
在home目录下安装项目代码与模型文件,文件夹名称分别为 pyltp 与 ltp_data_v3.4.0
在pyltp目录下,新建三个文件夹sourceWords,targetWords,zidian,script分别存放原语料,目标语料,字典文件,模型文件(将刚才下载好的模型文件放到该目录下)
同时创建分词的py文件 setup.py

代码如下

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = './script'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径,模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load_with_lexicon(cws_model_path, './zidian/kong.txt') # 加载模型,第二个参数是您的外部词典文件路径
f = open('.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值