【新手专属】Python写一个爬取静态网站的爬虫第二期--翻页操作（讲解）

本文链接：https://blog.csdn.net/liao_shi_jia/article/details/104451840

本文是Python爬虫系列的第二期，主要讲解如何进行网页翻页操作。作者通过实例演示了如何发现并利用URL规律实现翻页，同时提醒读者注意User-Agent和字符串格式化问题。

摘要由CSDN通过智能技术生成

"’

这篇文章是以Python3.8.1为基础的
用的IDE是PyCharm2019.3.3
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载

pip install beautifulsoup4
pip install requests

"’

转载请注明出处！侵权必究

这期我们来讲一下Python爬虫的翻页操作基础操作链接：CSDN
先随便找一个网站
我这边找了一个表情图片网站

没错还是它，表情包网站

先复习一下上期讲的内容
首先先打开开发者工具，按F5或者是鼠标右键点击检查（还是推荐使用Google浏览器）
在这里插入图片描述

打开后点击Network界面，并刷新一下
在这里插入图片描述
找到第一个文件点开Headers

这里边我们可以找到本网址的URL（域名），UA（User-Agent用户代理），Status Code（状态码）和Cookies等很多信息
这可以帮助我们更好的爬取网站

我们先找到UA先，将Headers页面拉到最下即可
在这里插入图片描述

首先我们先翻页看看

第二页Url
在这里插入图片描述
第三页Url

第四页Url

发现了规律没有？
它的规律就是：
http://www.17qq.com/bq-jinguanzhang_{n}.html

好，发现了规律之后，话不多说直接上代码

# 引用前言要下载的库，没有下载的小宝宝赶紧下载，在用PyCharm的可以Alt+Enter自动补全
import requests
from bs4 import BeautifulSoup

找到主网址，和要翻页网址，也就是刚才发现的规律

# 用于补全图片链接
main_url = "http://www.17qq.co