前言
今天在爬取2345天气数据时,经过漫长的操作发现爬取到的却是unicode字符,形如\u591a\u4e91
都是Unicode字符,查询资料后发现python中unicode转为中文很简单,这里记录一下,方便以后使用。
Unicode简介
Unicode是一个编码方案,Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
Unicode转为中文
方式一
直接用u和引号将unicode包围起来即可(爬虫不推荐)
u'\u591a\u4e91'
方式二
这里的response对象就是爬取的网页,text则是网页的文本内容,可以看到直接输出的大多为unicode字符