在python,正常的unicode的解码可以通过‘utf-8’来解决,类似的代码如下:
page_content.decode('utf-8')
如果网页保护很多中文字符,也可以使用gb2312来解决解码问题,类似的代码如下:
page_content.decode('gb2312')
当遇到unicode字符串的时候,上面的2种方法就不行了,需要使用unicode字符串解码方式,类似的代码如下:
page_content.decode('unicode_escape')
试试看,行不行?
行的话,不要忘记点个赞!
O(∩_∩)O哈哈~