前言
近日一直在爬虫学习的路上摸打滚爬,问题接踵而来,就在今天遇见了编码的问题,苦不堪言,苦苦需求“真相”,有所心得,分享一下,寻求同辈之人,聊以自慰。
问题
爬虫的学习终于到了进程这一关,我按照书上的代码进行测试,不料给出的网站还在“月球“呆着,于是随手点了另外一个网站进行测试。通过源码审计,发现需要的内容在标签的属性中,于是决定使用xpath来攻克它。内心激动而面无表情的按下快捷键,看着打印出的数据,我心甚慰,却不料突然中断,报错提醒。我早已轻车熟路,百度一下:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf4 in position 26: invalid continuation byte
翻译
UnicodeDecodeError:“utf-8”编解码器无法解码位置26中的字节0xf4:无效的连续字节
通过取经,我尝试更改代码
res = res.content
html = res.decode("utf-8”)
text格式是我们可读的文本形式,content是二进制的形式,使用decode再将其转化为utf-8可读的文本。
执行代码,新的问题来了
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf4 in position 26: invalid continuation byte
翻译