Python学习小记-2020-2-26爬取带编码的url地址

神行1989

于 2020-02-26 11:30:35 发布

阅读量219

点赞数

分类专栏： Python学习小记系列文章标签： python

本文链接：https://blog.csdn.net/qq_42788765/article/details/104513375

版权

Python学习小记系列专栏收录该内容

17 篇文章 0 订阅

订阅专栏

import urllib.request
import urllib.parse
q = {"q":"宝马"}
res = urllib.parse.urlencode(q,encoding="gbk")# gbk格式编码
print(res)

#下面构造完整的url地址，以如下网站为例
i = 0
url = "https://sou.autohome.com.cn/zonghe?%s&page=%s"%(res,i)
print(url) #打印url地址查看是否正确
res2 = urllib.request.urlopen(url)  #发送请求
print(res2.status)  # 查看请求状态
web = res2.read().decode("gbk")
print(web) #打印出源码

今天学习包含url编码格式的网站地址如何爬取，以某汽车网站为例
浏览器直接打开url地址发现：
https://sou.autohome.com.cn/zonghe?q=%B1%A6%C2%ED&page=7
其中 q 后面是编码过后的，查看网站源码发现是gbk格式后面的page=7代表第七页
所以我们用如上方法先构造好完整的url地址，再进行请求。最终获取到了网页源码
最终打印结果

神行1989

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习小记-2020-2-26爬取带编码的url地址

import urllib.requestimport urllib.parseq = {"q":"宝马"}res = urllib.parse.urlencode(q,encoding="gbk")# gbk格式编码print(res)#下面构造完整的url地址，以如下网站为例i = 0url = "https://sou.autohome.com.cn/zonghe?%s&am...
复制链接

扫一扫