【新手专属】Python写一个爬取静态网站的爬虫第二期--翻页操作(讲解)

本文是Python爬虫系列的第二期,主要讲解如何进行网页翻页操作。作者通过实例演示了如何发现并利用URL规律实现翻页,同时提醒读者注意User-Agent和字符串格式化问题。
摘要由CSDN通过智能技术生成

"’

前言:

这篇文章是以Python3.8.1为基础的
用的IDE是PyCharm2019.3.3
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载

pip install beautifulsoup4
pip install requests

"’

转载请注明出处!侵权必究

这期我们来讲一下Python爬虫的翻页操作 基础操作链接:CSDN
先随便找一个网站
我这边找了一个表情图片网站

http://www.17qq.com/bq-jinguanzhang.html

没错还是它,表情包网站

先复习一下上期讲的内容
首先先打开开发者工具,按F5或者是鼠标右键点击检查(还是推荐使用Google浏览器)
在这里插入图片描述

打开后点击Network界面,并刷新一下
在这里插入图片描述
找到第一个文件点开Headers
在这里插入图片描述
这里边我们可以找到本网址的URL(域名),UA(User-Agent用户代理),Status Code(状态码)和Cookies等很多信息
这可以帮助我们更好的爬取网站

我们先找到UA先,将Headers页面拉到最下即可
在这里插入图片描述

开始今天新内容

首先我们先翻页看看

第二页Url
在这里插入图片描述
第三页Url
在这里插入图片描述
第四页Url
在这里插入图片描述
发现了规律没有?
它的规律就是:
http://www.17qq.com/bq-jinguanzhang_{n}.html

好,发现了规律之后,话不多说直接上代码

# 引用前言要下载的库,没有下载的小宝宝赶紧下载,在用PyCharm的可以Alt+Enter自动补全
import requests
from bs4 import BeautifulSoup

找到主网址,和要翻页网址,也就是刚才发现的规律

# 用于补全图片链接
main_url = "http://www.17qq.co
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值