import urllib.request
import urllib.parse
q = {"q":"宝马"}
res = urllib.parse.urlencode(q,encoding="gbk")# gbk格式编码
print(res)
#下面构造完整的url地址,以如下网站为例
i = 0
url = "https://sou.autohome.com.cn/zonghe?%s&page=%s"%(res,i)
print(url) #打印url地址查看是否正确
res2 = urllib.request.urlopen(url) #发送请求
print(res2.status) # 查看请求状态
web = res2.read().decode("gbk")
print(web) #打印出源码
今天学习包含url编码格式的网站地址如何爬取,以某汽车网站为例
浏览器直接打开url地址发现:
https://sou.autohome.com.cn/zonghe?q=%B1%A6%C2%ED&page=7
其中 q 后面是编码过后的,查看网站源码发现是gbk格式后面的page=7代表第七页
所以我们用如上方法先构造好完整的url地址,再进行请求。最终获取到了网页源码