查了很多很多的资料无果,果然知乎牛逼,链接,完美解决。
爬取网站时,最终得到list内容,编码为unicode,想让其转换为汉字并输出。
需要提取的为下图中unicode部分:
保存为列表,然后使用for循环:
text为获取的网页。
pat = '"group": {"text": "(.*?)"'
text_list = re.compile(pat).findall(text)
for i in text_list:
print(i.encode('latin-1').decode('unicode_escape'))
输出结果为: