(点击上方公众号,可快速关注一起学Python)
来自:恋习Python 链接:
https://mp.weixin.qq.com/s/wv0nWKPNQhyqmYCamEdNGQ
近日,有位粉丝向我请教,在爬取某网站时,网页的源代码出现了中文乱码问题。之前关于爬虫乱码有很多粉丝的各式各样的问题,今天与大家一起总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。
一、乱码问题的出现
就以爬取51job网站举例,讲讲为何会出现“乱码”问题,如何解决它以及其背后的机制。
代码示例:
import requests
url = "http://search.51job.com"
res = requests.get(url)
print(res.text)
显示结果: