最近NLP新词发现及情感倾向性分类任务,需要用到分词,查找了下,python,jieba分词,貌似用起来还可以,效果也不差,还没在python里试中科院的分词。
jieba 分词:做最好的Python 中文分词组件。
这是结巴分词的目标,我相信它也做到了。操作简单,速度快,精度不错。而且是Python 的库,这样就不用调用
中科院分词ICTCLAS
了。
妈妈再也不用担心我不会分词啦。
jieba 的主页有详细的使用介绍,这里讲一些主页中没提到的。
结巴分词的主要特点是分词之后会形成一个可循环的对象。具体如下:
#! /usr/bin/env python2.7
#coding=utf-8
import jieba
string = '其实大家买手机就是看个心情,没必要比来比去的。'
seg = jieba.cut(string)
print seg #这是一个可循环的对象
for i in seg:
print i,
>>
>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache
loading model cost 4.32799983025 seconds.
Trie has been built succesfully.
其