大家使用python3爬虫时,总是遇到字符编码问题。
如:\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e这样的字符,令人十分苦恼。
下面我总结了几种解决方案:
- 爬到的数据通常是bytes类型,如requests.get的content属性。这时候,我们使用str(content, ‘utf8’)就可以把\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e这样的内容转化成汉字了。
- 若是想要查看硬编码的一个字符串,如
a = ‘\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e’
那么,使用a.encode(‘raw_unicode_escape’).decode()就可以print查看汉字了。
python3在实际使用时的字符编码问题远不止这几个,现在只能遇到了就记录一下,之后持续记录新的编码问题