【python】【爬虫】urllib爬虫模拟get请求

最新推荐文章于 2024-05-02 21:43:05 发布

Banana忍冬

最新推荐文章于 2024-05-02 21:43:05 发布

阅读量309

点赞数

分类专栏： python # 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/BananaChoas/article/details/117805618

版权

python 同时被 2 个专栏收录

39 篇文章 2 订阅

订阅专栏

爬虫

19 篇文章 2 订阅

订阅专栏

get请求的特点

在url地址中，.com的后面有个？，？后的内容为get请求的字段。每组字段由字段名=字段值组成，用&分开。具体例子见下

百度搜索：.com/s + ？

https://www.baidu.com/s?ie=UTF-8&wd=python

b站搜索：.com/all + ?

https://search.bilibili.com/all?keyword=PYTHON&from_source=webtop_search&spm_id_from=333.851

分析URL字段，找到并保留其中的关键get字段，得到最简化的URL。

得到的最简化b站搜索：根据keyword字段搜索

https://search.bilibili.com/all?keyword=PYTHON

最简化的百度搜索：根据wd字段搜索

https://www.baidu.com/s?ie=UTF-8&wd=python

注意：urllib不支持https，构造url时要使用http。在访问网页的http地址时会跳转到相应的https

封装Request请求

使用urllib.request.Request把构造好的url封装为request对象，传入urlopen()中发送请求。若构造的URL中带有中文，则先需要对中文使用quote()进行转码，再添加到构造的URL中。

模拟get请求

import urllib.request
#需要搜索的关键词
key = "python"
#中文关键字需要编码
key = urllib.request.quote(key)
#分析URL得到的最简URL，结合关键词进行构造
url = "http://www.baidu.com/s?ie=UTF-8&wd="+key
#把URL地址封装为Request请求
req = urllib.request.Request(url)
#发送Request请求，读取文件对象
data = urllib.request.urlopen(req).read()
#写入到本地文件
file = open("E:/test.html","wd")    #打开
file.write(data)      #写入
file.close()          #关闭

Banana忍冬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【python】【爬虫】urllib爬虫模拟get请求

get请求的特点在url地址中，.com的后面有个？，？后的内容为get请求的字段。每组字段由字段名=字段值组成，用&分开。百度搜索：.com/s + ？https://www.baidu.com/s?wd=%E6%B6%89%E5%8F%8A%E6%A8%A1%E5%BC%8F&rsv_spt=1&rsv_iqid=0x86425ec90005fd06&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-
复制链接

扫一扫