【转】Python对中文字符的处理(utf-8/ gbk/ unicode)
转自:https://blog.csdn.net/chixujohnny/article/details/51782826现在在做分词的时候会处理大量有关中文字符的处理,经常输出乱码,老大让我暂时不考虑字符编码,但是为了看着爽不得不研究一下。分词系统:NLPIR因为不同的编译环境默认的汉字编码可能不一样,我的环境是OSX10.11 + Pycharm + python2.7文件第一行永远默认# coding: utf-8数据集我用的是“tc-corpus-trai...
转载
2020-12-21 20:31:33 ·
898 阅读 ·
0 评论