pymmseg

这个库还是不太好,分词有点问题,还会有乱码
#! /usr/bin/env python
#coding=utf-8
#import sys
#print sys.path
from pymmseg import mmseg
mmseg.dict_load_defaults()
import chardet
import redis
r=redis.Redis(host='10.3.11.178',port=6379,db=1)
#r['foo']='bar'
#print r.get('foo')
#print r.type("foo")
#r.rpush("aa","cc")
#print r.type("aa")
#print r.lindex('aa',0)
#print r.rpush("aa","dd")
#print r.lindex('aa',1)
#print "-------------"
#print len(r.lrange('aa',0,-1))
#print r.lrange('aa',0,-1)
print r.lrange('00000001',0,0)
a=r.lrange('00000001',0,0)[0]
print a
algor = mmseg.Algorithm(a)
for tok in algor:
    print "--"
    print chardet.detect(tok.text)
    print '%s [%d..%d]' % (tok.text, tok.start, tok.end)

结果如下:
> "C:\Python25\pythonw.exe"  "F:\dm_app\tag2\test\redis_test.py"
['\xc0\xf1\xba\xd0\xb0\xfc\xd7\xb0']
礼盒包装
--
{'confidence': 0.0, 'encoding': None}
礼 [0..2]
--
{'confidence': 0.505, 'encoding': 'utf-8'}
邪 [3..5]
--
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
装 [6..8]

你看多出个邪来了,whath's the hell?



posted on 2010-03-25 17:04  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2010/03/25/1695460.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值