"’
前言:
这篇文章是以Python3.8.1为基础的
用的IDE是PyCharm2019.3.3
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载
pip install beautifulsoup4
pip install requests
"’
转载请注明出处!侵权必究
这期我们来讲一下Python爬虫的翻页操作 基础操作链接:CSDN
先随便找一个网站
我这边找了一个表情图片网站
http://www.17qq.com/bq-jinguanzhang.html
没错还是它,表情包网站
先复习一下上期讲的内容
首先先打开开发者工具,按F5或者是鼠标右键点击检查(还是推荐使用Google浏览器)
打开后点击Network界面,并刷新一下
找到第一个文件点开Headers
这里边我们可以找到本网址的URL(域名),UA(User-Agent用户代理),Status Code(状态码)和Cookies等很多信息
这可以帮助我们更好的爬取网站
我们先找到UA先,将Headers页面拉到最下即可
开始今天新内容
首先我们先翻页看看
第二页Url
第三页Url
第四页Url
发现了规律没有?
它的规律就是:
http://www.17qq.com/bq-jinguanzhang_{n}.html
好,发现了规律之后,话不多说直接上代码
# 引用前言要下载的库,没有下载的小宝宝赶紧下载,在用PyCharm的可以Alt+Enter自动补全
import requests
from bs4 import BeautifulSoup
找到主网址,和要翻页网址,也就是刚才发现的规律
# 用于补全图片链接
main_url = "http://www.17qq.co