一、python2.7下utf字符错误带有'u'前缀
使用2.7的IDLE时,utf-8编码的字符被错误的带上了'u'前缀,爬取网页或者存储后又读出时可能会遇到这种情况。
找了一些帖子,其中有十分有用的回答。贴在这儿,以备忘。
1.
>>> import struct
>>> a=u'\xb3\xc2\xbb\xdb\xc1\xd5'
>>> for i in range(len(a)):
b+=struct.pack('B',ord(a[i]))
>>> b
['\xb3', '\xc2', '\xbb', '\xdb', '\xc1', '\xd5']
2.
>>> a=u'\xb3\xc2\xbb\xdb\xc1\xd5'
>>> c=eval(repr(a)[1:])
>>> c
'\xb3\xc2\xbb\xdb\xc1\xd5'