python 常用中文分词工具

本文探讨了在处理微博文本时,使用jieba、NLPIR和哈工大LTP三种Python分词工具的体验。jieba分词需将Unicode转为utf-8,NLPIR在论文中广泛使用,具有命名实体识别功能,而LTP也在命名实体识别方面表现出色。
摘要由CSDN通过智能技术生成

最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba \ NLPIR \ LTP

这三种分词工具,在这里分享下~


1.jieba 分词:

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))

效果:


邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

这里面包括了结巴的分词和写入文件的形式

值得注意的是结巴分词出来的字符编码是 'Unicode' 编码,我们需要把 unicode -> utf-8


2.张华平老师的 NLPIR

(https://github.com/NLPIR-team/NLPIR)
<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值