初学爬虫爬取豆瓣图书出版社的名字
爬取代码

import urllib.request
import re
url = 'https://read.douban.com/provider/all'
pat = '<div class="cm-body"><div class="name">(.*?)</div><div class="works-num">'
data = urllib.request.urlopen(url).read()
key_word = re.compile(pat).findall(str(data))

得到的的是 ‘\xe5\x8d\x9a\xe9\x9b\x86\xe5\xa4\xa9\xe5\x8d\xb7’的list集合。
普通的encode 和decode都无法正确得到中文信息,下面分两步
将\xe5\x8d\x9a\xe9\x9b\x86\xe5\xa4\xa9\xe5\x8d\xb7变成\xe5\x8d\x9a\xe9\x9b\x86\xe5\xa4\xa9\xe5\x8d\xb7
s = key_word[0].e

初学者在爬取豆瓣图书出版社信息时遇到编码难题,原始数据为'xe5x8dx9axe9x9bx86xe5xa4xa9xe5x8dxb7'的list,通过普通encode和decode无法正确转为中文。解决方案包括使用unicode_escape进行解码,参考了相关博客文章。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



