很多同学都会出现乱码的问题。可能是mmseg支持的是utf8, windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了。
解决方法:
在控制台打印的地方用一个转码就ok了,打印的时候这么写:
print myname.decode('UTF-8').encode('GBK')
mmseg.dict_load_defaults()
text =# ...
algor = mmseg.Algorithm(text)
for tok in algor:
print'%s [%d..%d]'%(tok.text.decode('UTF-8').encode('GBK') , tok.start, tok.end)