【新手专属】Python写一个爬取静态网站的爬虫第三期--去除广告(讲解)

前言:

这篇文章是以Python3.8.1为基础的 下 载链接:Python3.8.1
用的IDE是PyCharm2019.3.3 下载链接:PyCharm
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载
这是我第三个爬虫教程,如果没看过的可以从头开始看 链接:CSDN

pip install beautifulsoup4
pip install requests

转载请注明出处!侵权必究!

这一期我们来讲一讲如何去除爬到的图片会有广告的问题 (翻页爬取+去广告) 如果没看过我的翻页操作,链接: Blog
首先随便找一个网站
这里我还用那个网站 – 表情包网站:

http://www.17qq.com/bq-jinguanzhang.html

这里我们还是照顾一下新手小朋友,复习一下第一期的内容以免忘记:

首先,先打开开发者工具,按键盘F5(Lenovo用Fn+F5)或是鼠标右键点击检查(我依然推荐使用Google浏览器)
在这里插入图片描述
找到Network点击进去,并刷新一下
在这里插入图片描述
刷新后(Ctrl+R快捷键刷新或右上角手动刷新)
在这里插入图片描述
点开第一个文件,并点开Headers
在这里插入图片描述
这里边我们可以找到Requests Url(本网网址)、Starts Code(状态码)、UA(User-Agent用户代理码)和Cookies等等有用的信息
这些是爬取网站必备的信息

我们先找到UA先,将Header界面拉到最下边即可,并复制下来,这可以帮助我们不被网站管理员“反爬”
在这里插入图片描述

开始我们今天新内容:

今天我们来说一说如何去除爬下来的图片含义广告图片的问题,先上代码
# 引入库
import requests
from bs4 import BeautifulSoup

找到主网址,和规律网网址,这些上一期讲过了,先自己实践一下

# 主网址,用于补全图片链接
main_url 
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值