【新手专属】Python写一个爬取静态网站的爬虫第三期--去除广告（讲解）

本文链接：https://blog.csdn.net/liao_shi_jia/article/details/104487026

本文是Python3爬虫教程的第三期，主要讲解如何在爬取网页时去除广告图片。作者首先回顾了查找网站信息如UA和Cookies的重要性，然后介绍了通过find_all_next方法定位含有图片的div标签，遍历并下载无广告的图片。

摘要由CSDN通过智能技术生成

前言：

这篇文章是以Python3.8.1为基础的下载链接：Python3.8.1
用的IDE是PyCharm2019.3.3 下载链接：PyCharm
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载
这是我第三个爬虫教程，如果没看过的可以从头开始看链接：CSDN

pip install beautifulsoup4
pip install requests

转载请注明出处！侵权必究！

这一期我们来讲一讲如何去除爬到的图片会有广告的问题 （翻页爬取+去广告） 如果没看过我的翻页操作，链接： Blog
首先随便找一个网站
这里我还用那个网站 – 表情包网站：

http://www.17qq.com/bq-jinguanzhang.html

这里我们还是照顾一下新手小朋友，复习一下第一期的内容以免忘记：

首先，先打开开发者工具，按键盘F5（Lenovo用Fn+F5）或是鼠标右键点击检查（我依然推荐使用Google浏览器）
在这里插入图片描述
找到Network点击进去，并刷新一下

刷新后（Ctrl+R快捷键刷新或右上角手动刷新）

点开第一个文件，并点开Headers

这里边我们可以找到Requests Url（本网网址）、Starts Code（状态码）、UA（User-Agent用户代理码）和Cookies等等有用的信息
这些是爬取网站必备的信息

我们先找到UA先，将Header界面拉到最下边即可，并复制下来，这可以帮助我们不被网站管理员“反爬”
在这里插入图片描述

开始我们今天新内容：

今天我们来说一说如何去除爬下来的图片含义广告图片的问题，先上代码

# 引入库
import requests
from bs4 import BeautifulSoup

找到主网址，和规律网网址，这些上一期讲过了，先自己实践一下

# 主网址，用于补全图片链接
main_url = "http://www.17qq.com"
# 翻页网址，规律，以方便format方法填充用花括号进行弥补规律
page = "http://www.17qq.com/bq-jinguanzhang_{}.html"

找到自己的用户代理码，这个码每个人都是不同的，可以自己实践操作一下