Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)

原创 2017年05月06日 17:05:54

斗图我不怕


最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地。自己写这篇文章总结下这个项目的所涉及的知识,并将实现过程分享给大家。

首先:分析网站,找到图片的src地址

打开网址:https://www.doutula.com/article/list/?page=1,从网址,我们可以推断出page={页码数字}是为了控制分页。

在每一中,我们可以看到大致有10个套图(套图点击之后是套图里面的具体图片,大致每个套图里有9张表情图),分别放在class为.list-group-item的a标签里,详情如下面的两张图片:



套图位置



每页10个套图a标签

点击一个套图连接之后,我们可以看到套图下的所有图片,然后选择一张图片观察它的src地址,后来发现就是img的属性 onerror的内容(至于为什么不是img下的src,大家可以访问地址试下)


onerror属性



img的src地址

其次:爬取思路(关键)

在第一步分析网站准备工作之后,我们思考下:怎么实现多页爬取?怎么获取每一页所有套图的连接?怎么获取每一套图里面所有表情图片的src?最后怎么实现多线程爬取(加快速度)?为了实现思路清晰,我们将每个模块封装成函数,下面相关代码模块:

(我还不知道简书怎么加入代码框,有没有大佬可以告诉我)



引入模块

(1)获取一个网页的源码

url地址是指每一页的地址,等会用format函数传递页码,实现多页爬取


获取一页的源码

(2)获取每一页的所有套图的链接,利用套图链接去获取所有套图详情网页源码(有点绕)


获取带有图片的源码

(3)利用xpath获取每一个图片的带有src地址的onerror属性内容



图片所在div

获取onerror内容

这里解释下这段代码:一页中有10个套图,然后每个套图中有9个图片,所以我们在这里获得的items有90个(图片所在的div),然后我们在每一个items中获取onerror里的内容,以便(4)步中的start_save_img()调用

(4)利用正则获取onerror内容里的图片src地址,然后用多线程实现下载图片



多线程下载图片

首先解释下 start_save_img(imgurl_list):参数 imgurl_list是我们(3)中获得onerror的内容(注意:不是图片的src地址,我们还要用注册和切片处理下)。其中我们在for循环中创建一个线程,调用的方法是save_img,传递的参数是onerror

save_img(img_url):接到onerror,用正则和切片处理后获得到每个图片的src地址,最后保存到本地,% img_url.split('/')[-1]这个事命名方式,大家可以仔细观察下每个图片得src地址最一个/后的内容不一样(这里大家也可以用其他方式命名)

(5)调用方法执行



多页(1-7)爬取

最后:运行代码,效果如下:



运行效果(我用的校园网)

总结:这个小项目其实用到很多Python爬虫的知识,并且涉及到多线程,爬取速度还算可以。代码都会写,还是希望自己可以掌握这些方法,下次拿到别的网站自己也会有大致思路了。(ps:如果我有的地方写的不对后者解释不当,请大家海涵和留言指出)

(ps:源码的话,建议先按图片敲一遍,动手实践下,好处我不说了。或者可以留言邮箱,我发给大家)

版权声明:本文为博主原创文章,未经博主允许不得转载。

python多线程爬取图片

创建一个 Queue.Queue() 的实例,然后使用数据对它进行填充。 将经过填充数据的实例传递给线程类,后者是通过继承 threading.Thread 的方式创建的。 生成守护线程池。 每次从队...

python多线程图片爬虫

学习python后写的第一个程序:抓妹子图。。。

爬取妹子图(python):爬虫(bs+rq)+ gevent多线程

爬取妹子图:爬虫(bs+rq)+ gevent多线程简介我观察爬取妹子图算是爬虫专业户必做的事情之一,所以我也做了一个,结果是有3.45GB,49847张图。Beautiful Soup + Requ...

Python 爬虫多线程爬取美女图片保存到本地

Wanning 我们不是生产者,我们只是搬运工 资源来至于qiubaichengren ,代码基于Python 3.5.2 友情提醒:血气方刚的骚年。请谨慎 阅图 !!! 谨慎 阅图 !!! ...
  • cch1024
  • cch1024
  • 2017年01月18日 15:24
  • 2101

python3实现爬虫爬取今日头条上面的图片(requests+正则表达式+beautifulSoup+Ajax+多线程)

1.环境须知 做这个爬取的时候需要安装好python3.6和requests、BeautifulSoup等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。 2.直接上代码 ...
  • DH_SIR
  • DH_SIR
  • 2017年11月10日 15:39
  • 285

python 爬虫及multiprocessing包——多线程爬取并解析百度贴吧某贴小trick

preface:看极客学院关于xpath的视频时,偶然看到可以用multiprocessing进行多线程爬取网页,只有小段代码,故先贴出来。mark下。 coding: #!/usr/bin/env...

python爬虫爬取糗百成人图片多线程版本

来个简单的多线程,爬取速度比单线程要快很多,下面上代码: #encoding:utf-8 #多线程爬取 import requests import os from bs4 import Beau...

Python 爬虫 多线程爬取百度贴吧内容,并将内容存到本地

功能: 1、爬取百度贴吧内容: 回帖时间 回帖内容 回帖人 2、通过xpath来提取属性,并将提取的属性写入到txt文件中 3、多线程实现 下面是代码:# -*-...

Python爬虫爬取百度贴吧多线程版

XPath提取内容//定位根节点/ 往下层寻找提取文本内容:/text()提取属性内容 : /@XXXX常规匹配#-*-coding:utf8-*- from lxml import etree ht...
  • jethai
  • jethai
  • 2016年08月28日 14:08
  • 210

Python 爬取163整个网站的图片 多线程 深度控制 相对路径处理 请求间隔控制 正则匹配

# coding:utf-8 import urllib import urllib2 import re import time import threading import socket imp...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)
举报原因:
原因补充:

(最多只允许输入30个字)