抓取网站中有些unicode编码
u’\n \u201c\u515c\u5e95\u5f0f\u589e\u6301\u201d\u662f\u5927\u80a1\u4e1c\u201c\u9633\u8c0b\u201d\uff1f\n ‘
这样的文字直接取出就可以显示正确的文字,不会出现乱码
但是有时出现
u’\xe9\x94\x8c\xe7\x8e\xb0\xe8\xb4\xa7\xe5\x8d\x87\xe6\xb0\xb4\xe6\x9e\x81\xe7\xab\xaf\xe5\x8c\x96 \xe5\xa4\xa7\xe5\xb9\x85\xe9\x9c\x87\xe8\x8d\xa1\xe5\x8f\xaa\xe6\x98\xaf\xe9\xa2\x84\xe6\xbc\x94’
这样取出的文字就是乱码
éç°è´§åæ°´æ端å 大å¹éè¡åªæ¯é¢æ¼
需要对其进行编码 .encode(‘raw_unicode_escape’)