前言:
这篇文章是以Python3.8.1为基础的 下 载链接:Python3.8.1
用的IDE是PyCharm2019.3.3 下载链接:PyCharm
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载
这是我第三个爬虫教程,如果没看过的可以从头开始看 链接:CSDN
pip install beautifulsoup4
pip install requests
转载请注明出处!侵权必究!
这一期我们来讲一讲如何去除爬到的图片会有广告的问题 (翻页爬取+去广告) 如果没看过我的翻页操作,链接: Blog
首先随便找一个网站
这里我还用那个网站 – 表情包网站:
http://www.17qq.com/bq-jinguanzhang.html
这里我们还是照顾一下新手小朋友,复习一下第一期的内容以免忘记:
首先,先打开开发者工具,按键盘F5(Lenovo用Fn+F5)或是鼠标右键点击检查(我依然推荐使用Google浏览器)
找到Network点击进去,并刷新一下
刷新后(Ctrl+R快捷键刷新或右上角手动刷新)
点开第一个文件,并点开Headers
这里边我们可以找到Requests Url(本网网址)、Starts Code(状态码)、UA(User-Agent用户代理码)和Cookies等等有用的信息
这些是爬取网站必备的信息
我们先找到UA先,将Header界面拉到最下边即可,并复制下来,这可以帮助我们不被网站管理员“反爬”
开始我们今天新内容:
今天我们来说一说如何去除爬下来的图片含义广告图片的问题,先上代码
# 引入库
import requests
from bs4 import BeautifulSoup
找到主网址,和规律网网址,这些上一期讲过了,先自己实践一下
# 主网址,用于补全图片链接
main_url = "http://www.17qq.com"
# 翻页网址,规律,以方便format方法填充用花括号进行弥补规律
page = "http://www.17qq.com/bq-jinguanzhang_{}.html"
找到自己的用户代理码,这个码每个人都是不同的,可以自己实践操作一下