python 分词字典的词性_Python 文本挖掘:jieba中文分词和词性标注

最近NLP新词发现及情感倾向性分类任务,需要用到分词,查找了下,python,jieba分词,貌似用起来还可以,效果也不差,还没在python里试中科院的分词。

jieba 分词:做最好的Python 中文分词组件。

这是结巴分词的目标,我相信它也做到了。操作简单,速度快,精度不错。而且是Python 的库,这样就不用调用

中科院分词ICTCLAS

了。

妈妈再也不用担心我不会分词啦。

jieba 的主页有详细的使用介绍,这里讲一些主页中没提到的。

结巴分词的主要特点是分词之后会形成一个可循环的对象。具体如下:

#! /usr/bin/env python2.7

#coding=utf-8

import jieba

string = '其实大家买手机就是看个心情,没必要比来比去的。'

seg = jieba.cut(string)

print seg #这是一个可循环的对象

for i in seg:

print i,

>>

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt

loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache

loading model cost 4.32799983025 seconds.

Trie has been built succesfully.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值