今天在实际处理一些中文数据的时候出现了一些问题,就是好多都是'\xbe\xfc\xca\xc2'类型的字符数据,想要转成utf-8编码的时候却又会报错,想要正常输出中文文本数据内容的时候却又无法正常输出,很是苦恼,查找了好多的相关博客资料,大都是再说如何在打开文件的时候设置默认的数据读取编码或者是采用ignore的方式,忽略掉一些错误信息,我尝试过了,都没有作用,可能跟我使用的版本有关系,看那些教程里面的方法大都是python3版本的,而我使用的是python2版本的,这里自己好好研究了一下,终于解决了中文数据的正常输出问题。
'\xbe\xfc\xca\xc2'这种类型的字符串数据实际上就是中文文本数据在‘GBK’编码方式下的结果,想要在默认的‘utf-8’编码形式下能够正常输出,首先要做的不是用‘utf-8’进行编码,而是先要进行解码处理,具体实例如下:
tmp='\xbe\xfc\xca\xc2'
print tmp.decode('gbk').encode('utf-8')
输出结果如下:
军事
什么事情都要理清楚思路再去实现,可能就会有事半功倍的效果了,记录一下!