web信息中常会遇到“\u4f60\u597d”类型的字符。首先’\u‘开头就基本表明是跟unicode编码相关的,“\u”后的16进制字符串是相应汉字的utf-16编码。Python里decode()和encode()为我们提供了解码和编码的方法。其中decode(‘unicode_escape’)能将此种字符串解码为unicode字符串。
爬虫爬到的内容是这样的:
如果直接打印出来是这样的:
python3的解决办法:字符串.encode(‘utf-8’).decode(‘unicode_escape’)
python2:字符串.decode(‘unicode_escape’)