python爬虫实战（1） —get请求

最新推荐文章于 2024-06-02 15:53:40 发布

龟的小号

最新推荐文章于 2024-06-02 15:53:40 发布

阅读量1.3k

点赞数 2

分类专栏：爬虫

本文链接：https://blog.csdn.net/hju22/article/details/88713131

版权

文章目录

一、爬虫任务

在百度上搜索“小明”，将搜索结果的前三页保存到本地

二、任务分析

发送的请求是get请求，请求的url如下：

http://www.baidu.com/s?wd=小明&          #第1页
http://www.baidu.com/s?wd=小明&pn=10 #第2页
http://www.baidu.com/s?wd=小明&pn=20 #第3页

整体任务是一个循环，循环的变量是pn值，pn的值由当前页码决定。pn=（当前页码-1）*10。
每次发送一个请求后，我们需要获取服务器的响应。
将响应文件保存在本地

注意点：

需要把请求中参数的形式从key-value转换成字符串
获取响应文件的二进制形式即可
以二进制的形式将响应写入到本地（wb的模式）

二、脚本

import urllib
from urllib import request

#爬取网站，下载网页
def download(url,filename):
    print("正在下载"+filename)
    httpHandler=request.HTTPHandler()
    opener=request.build_opener(httpHandler)
    headers={"User-Agent":"Mozilla/5.0 (Win

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

龟的小号

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫实战（1） —get请求

文章目录一、爬虫任务二、任务分析二、脚本三、运行结果一、爬虫任务在百度上搜索“小明”，将搜索结果的前三页保存到本地二、任务分析发送的请求是get请求，请求的url如下：http://www.baidu.com/s?wd=小明& #第1页http://www.baidu.com/s?wd=小明&pn=10 #第2页http://www.baidu....
复制链接

扫一扫