Python 多线程爬虫爬取爱MM图片(涉及到多进程)

在爬虫学习的过程中,当遇到爬取量较大的情况下,爬虫消耗的时间会比较多。除开使用 Python 爬虫框架之外,合理使用多进程与多线程来爬取数据是非常有效的。

在前两天的实例操作过程中,由于爬取内容较多,导致时间过长,因此我深入研究学习了多线程以及多进程的相关知识,将这两种方法与实例相结合,可以非常有效的缩短爬取时间。废话不多说,我们进入主题。未成年人请酌情阅读

正文

本次实例是下载图片集,基本上可以分解为三个步骤:

  • 首先从页面上获取所有的图片列表,提取每个图片集的详细页面地址。
  • 接着爬取每个详细页面的图片信息,获取我们想要的图片地址。
  • 最后根据获得到的图片地址,将图片下载到本地。

前两个步骤具体实现用的是多线程爬虫,最后一步,根据当时自己实际处理的情况,先是使用多线程爬虫下载图片;后又学习使用多进程多线程爬虫来下载图片。

图片地址的爬取

在我前面的多线程学习文章中,我比较喜欢使用 Queue 模块来实现线程同步,因此代码中也都是用的这种方式。若习惯用 Lock 方式来实现线程同步的朋友们,可以看下我上篇文章,修改下代码同样可以运行。

本文是以爱MM图为例,爬取相关图片。

首先是获取页面上所有的图片详情页面地址,然后存取队列中。

page_urlqueue = queue.Queue()
class Thread_Crawl(threading.Thread):
    def __init__(self, que):
        threading.Thread.__init__(self)
        self.que = que

    def run(self):
        while True:
            url = self.que.get()
            self.que.task_done()
            if url == None:
                break
            self.page_spider(url)

    def page_spider(self, url):
        html = get_text(url)
        doc = pq(html)
        items = doc('.excerpt-c5').items()

        for item in items:
            title = item.find('h2').text()#标题
            photo_page_url = item.find('h2 > a').attr('href')#图片集详情地址

            detail_urlqueue.put(photo_page_url)

接着再次使用多线程爬取队列中的每个地址,将所有图片地址存入到 mongodb 中。

mongo = MongoDB()
class Thread_Parser(threading.Thread):
    def __init__(self, que):
        threading.Thread.__init__(self)
        self.que = que

    def run(self):
        while True:
            url = self.que.get(False)
            self.que.task_done()
            if not url:
                break
            self.parse_data(url)


    def parse_data(self, url):
        global total
        html = get_text(url)
        doc = pq(html)

        items = doc('.article-content .gallery-item').items()

        title = doc('.article-title').text()
        for item in items:
            # 由于图片尺寸有限制,经测试,可以修改获取大图
            # https://pic.bsbxjn.com/wp-content/uploads/2019/05/7ee81646f32f97d-240x320.jpg
            # 改为:https://pic.bsbxjn.com/wp-content/uploads/2019/05/7ee81646f32f97d.jpg
            photo_url = item.find('.gallery-icon > a > img').attr('src')
            purl = str(photo_url)[:-12] + str(photo_url)[-4:]
            photo = {
                'title': title,
                '_id': purl,
                'status' : 1
            }
            mongo.insert(photo)
            total += 1

图片下载

1.多线程图片下载

class PhotoThread(threading.Thread):
    def __init__(self, que):
        threading.Thread.__init__(self)
        self.que = que

    def run(self):
        while True:
            photo = self.que.get()
            self.que.task_done()
            if photo == None:
                break
            self.download_photo(photo)

    def download_photo(self,photo):
        title = photo['title']
        url = photo['photo_url']
        fpath = 'MM_photo/' + title
        if not os.path.exists(fpath):
            os.mkdir(fpath)

        response = request.get(url, 3)
        if response != None:
            file_path = '{0}/{1}.{2}'.format(fpath, md5(response.content).hexdigest(), 'jpg')
            if not os.path.exists(file_path):
                with open(file_path, 'wb') as fw:
                    fw.write(response.content)
            else:
                print('Already Download', file_path)
        else:
            print('Failed to Save Image')

按照图片集标题将每一类的图片存入各自的文件目录下。

2.多进程多线程图片下载

在实现多线程爬虫爬取图片后,我发现依然会耗费不少的时间,因此查询资料发现可以将多进程与多线程配合着使用。

import time
import threading
from photos_download.download_text import request
import multiprocessing
from photos_download.mongodb_queue import MogoQueue
import os
from hashlib import md5



def mzitu_crawler(max_threads=10):
    crawl_queue = MogoQueue()
    def pageurl_crawler():
        while True:
            try:
                photo = crawl_queue.pop()#取出的同时,设置url为正在下载状态
                url = photo['_id']
                print(url)
            except KeyError:
                print('队列没有数据')
                break
            else:
                download_photo(photo)
                crawl_queue.complete(url)  ##设置为完成状态

    def download_photo(photo):
        title = photo['title']
        url = photo['_id']
        fpath = 'MM_photo/' + title
        if not os.path.exists(fpath):
            os.mkdir(fpath)

        response = request.get(url, 3)
        if response != None:
            file_path = '{0}/{1}.{2}'.format(fpath, md5(response.content).hexdigest(), 'jpg')
            if not os.path.exists(file_path):
                with open(file_path, 'wb') as fw:
                    fw.write(response.content)
            else:
                print('Already Download', file_path)
        else:
            print('Failed to Save Image')

    threads = []
    while crawl_queue:
        # print('Process----------{0}-------len(threads)---{1}'.format(multiprocessing.current_process().name,len(threads)))
        """
        这儿crawl_queue用上了,就是我们__bool__函数的作用,为真则代表我们MongoDB队列里面还有数据
        crawl_queue为真都代表我们还没下载完成,程序就会继续执行
        """
        for thread in threads:
            # print('Thread-------{0}-------{1}'.format(thread.name,thread.is_alive()))
            if not thread.is_alive():  ##is_alive是判断是否为空,不是空则在队列中删掉
                threads.remove(thread)
        while len(threads) < max_threads or crawl_queue.peek():  ##线程池中的线程少于max_threads 或者 crawl_qeue时
            # thread = PhotoThread(photos_queue)  ##创建线程
            thread = threading.Thread(target=pageurl_crawler) ##创建线程
            thread.setDaemon(True)  ##设置守护线程
            thread.start()  ##启动线程
            threads.append(thread)  ##添加进线程队列
        time.sleep(1)

def process_crawler():
    process = []
    num_cpus = multiprocessing.cpu_count()
    print('将会启动进程数为:', num_cpus)
    for i in range(num_cpus):
        p = multiprocessing.Process(target=mzitu_crawler)  ##创建进程
        p.start()  ##启动进程
        process.append(p)  ##添加进进程队列
    for p in process:
        p.join()  ##等待进程队列里面的进程结束

if __name__ == '__main__':
    start_time = time.time()

    process_crawler()

    end_time = time.time()
    print('耗时{}s'.format((end_time - start_time)))

开启多进程,然后进程中构建线程池,利用多线程来下载图片。
每个进程需要知道那些 URL 爬取过了、哪些 URL 需要爬取!我们来给每个 URL 设置三种状态:

  • OUTSTANDING = 1 ##初始状态
  • PROCESSING = 2 ##正在下载状态
  • COMPLETE = 3 ##下载完成状态

这里涉及到一个重要的类 MogoQueue,待会我们根据这个类分析一下爬取思路。

from datetime import datetime, timedelta
from pymongo import MongoClient, errors
from photos_download.setting import *

class MogoQueue():

    OUTSTANDING = 1 ##初始状态
    PROCESSING = 2 ##正在下载状态
    COMPLETE = 3 ##下载完成状态

    def __init__(self, timeout=10):##初始mongodb连接
        self.client = MongoClient(host=MONGO_HOST, port=MONGO_PORT)
        self.db = self.client[MONGO_DB]
        self.collection = self.db[MONGO_COL]
        self.timeout = timeout

    def __bool__(self):
        """
        $ne的意思是不匹配,如果所有图片都是下载完成状态,则返回False
        """
        record = self.collection.find_one(
            {'status': {'$ne': self.COMPLETE}}
        )
        return True if record else False

    def push(self, url, title): ##这个函数用来添加新的URL进队列
        try:
            self.collection.insert({'_id': url, 'status': self.OUTSTANDING, 'title': title})
            print(url, '插入队列成功')
        except errors.DuplicateKeyError as e:  ##报错则代表已经存在于队列之中了
            print(url, '已经存在于队列中了')
            pass
        

    def pop(self):
        """
        这个函数会查询队列中的所有状态为OUTSTANDING的值,
        更改状态,(query后面是查询)(update后面是更新)
        并返回_id(就是我们的URL),MongDB好使吧,^_^
        如果没有OUTSTANDING的值则调用repair()函数重置所有超时的状态为OUTSTANDING,
        $set是设置的意思,和MySQL的set语法一个意思
        """
        record = self.collection.find_one_and_update(
            {'status': self.OUTSTANDING},
            {'$set': {'status': self.PROCESSING,'timestamp': datetime.now().strftime("%Y-%m-%d %H:%M:%S")}}
        )
        if record:
            return record
        else:
            self.repair()
            raise KeyError

    def peek(self):
        """这个函数是取出状态为 OUTSTANDING的文档并返回_id(URL)"""
        record = self.collection.find_one({'status': self.OUTSTANDING})
        if record:
            return record['_id']

    def complete(self, url):
        """这个函数是更新已完成的URL完成"""
        self.collection.update({'_id': url}, {'$set': {'status': self.COMPLETE}})

    def repair(self):
        """这个函数是重置状态$lt是小于,该方法主要是用于判断2状态的可能下载失败"""
        dl = datetime.now() - timedelta(seconds=self.timeout)
        record = self.collection.update_many(
            {
                'timestamp': {'$lt': dl.strftime("%Y-%m-%d %H:%M:%S")},
                'status': self.PROCESSING
            },
            {'$set': {'status': self.OUTSTANDING}}
        )

    def clear(self):
        """这个函数只有第一次才调用、后续不要调用、因为这是删库啊!"""
        self.collection.drop()

进程刚开始时,所有图片的 URL 状态都为 OUTSTANDING 状态,然后线程获取一个状态为 OUTSTANDING 状态的 URL 对象,在取到这个对象时,同时设置该对象为 PROCESSING 状态,通知别的线程不需要再处理该对象;然后根据图片 url 进行图片下载,下载完成后,设置该对象为 COMPLETE 状态。当然,在图片下载的过程中,可能存在网站未反应情况,这时我们便不能将 URL 对象设置为 COMPLETE 状态。当所有初始状态的图片都爬取结束(图片状态不一定都成功置为 COMPLETE 状态,也可能是 PROCESSING 状态),此时进程因为发现仍然有图片状态不是下载完成状态,所以不会结束进程。在进程继续的过程中,MogoQueue 队列已经获取不到 OUTSTANDING 状态的对象,我们设置一个计时参数,将距离上次进行图片下载时超过 10s 的 URL 对象从 PROCESSING 状态置为 OUTSTANDING 状态,这样保证了所有图片都能够下载。最后,当所有图片状态为 COMPLETE 状态时,进程结束,程序结束。

结果如下:
在这里插入图片描述
对于图片下载的实现方式,多进程多线程爬虫在爬取 454 张图片时比多线程爬虫节省了 100s。

详情代码前往:https://github.com/Acorn2/SpiderCrack/tree/master/photos_download

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python是一种非常流行的编程语言,它具有众多优势,包括易学易用、开发效率高等。在数据爬取方面,Python也具有相对优势,可以通过多线程多进程来提高数据爬取效率。 多线程是一种将一个进程分为多个线程执行的技术,可以有效利用计算机的资源,同时完成多个任务。在数据爬取方面,可以将多个URL请求分配到不同的线程中去执行,从而实现同时请求多个URL,提高数据爬取速度和效率。 多进程则是将一个任务分为多个进程执行,每个进程有自己的资源和空间,在数据爬取方面,可以将不同的URL请求分配到不同的进程中去执行,这样可以充分利用计算机的多核处理器,同时完成多个任务,提高数据爬取效率。 在使用Python进行数据爬取时,需要根据实际的情况选用合适的多线程多进程方式来处理数据,其中需要注意线程间共享资源的问题,尤其是多个线程同时访问同一份数据时需要进行合理的控制和调度。 总的来说,通过使用Python多线程多进程技术,可以有效提高数据爬取效率,从而更好的服务于数据分析和应用。 ### 回答2: 随着互联网的发展,数据量爆炸式增长,数据爬取成为了许多公司和个人必不可少的工作。而对于数据爬取而言,效率和速度是非常重要的因素。因此,在进行大规模数据爬取时,采用多线程多进程技术可以大大提高爬取效率。 首先,我们来理解一下什么是多线程多进程多线程是在一个进程内开启多个线程,这些线程共享进程的资源,如内存等。多线程适合IO密集型的操作,如网络爬虫、文件读写等。而多进程则是在操作系统中开启多个进程,各自拥有独立的资源,如内存、文件等。多进程适合CPU密集型的操作,如图像识别、加密解密等。因此,在选择多线程还是多进程时,需要根据具体爬取任务进行考虑。 对于Python而言,它可以通过使用 threading 和 multiprocessing 模块来实现多线程多进程,分别引入 Thread 和 Process 两个类。而在网络爬虫中,多线程运行多个爬取任务,可以大大提高页面的下载速度。在爬虫程序中,我们可以通过 Python 对于 urllib 和 requests 模块进行多线程异步请求,利用 Python 线程池 ThreadPoolExecutor 和 asyncio 模块的异步特性,实现高性能网络爬虫。 另外,在进行数据爬取时,需要注意反爬机制,如设置合适的请求头、降低请求频率等。同时,也需要注意保持数据的一致性和准确性。在使用多线程多进程进行数据爬取时,也需要注意线程和进程间的交互和同步,如使用队列等数据结构进行数据共享、使用锁机制进行数据的同步等。 综上所述,Python 多线程多进程爬取大量数据可以提高爬取效率和速度,但也需要根据具体任务进行选择。同时,在进行数据爬取时需要注意反爬机制和数据的一致性和准确性,保证数据的安全和可信度。 ### 回答3: Python作为一种高级编程语言,在数据采集和分析方面具有优秀的表现。为了能更快地完成数据爬取任务,Python可以使用多线程多进程方式。下面我们来介绍一下这两种方式具体的特点和使用方法。 首先,Python多线程方式是通过创建多个线程来同时执行任务,这些线程共享同一个进程空间,因此可以用来提高数据爬取效率。在多线程模式下,每个线程都有自己的任务和数据,这些线程可以并行地执行,从而大大提升了数据爬取的速度。同时,多线程也可以实现类似于并发、异步的效果,因为每个线程都可以独立地进行访问和解析等操作。 然而,在Python中使用多线程还是存在一些限制的。由于GIL(Global Interpreter Lock)的限制,多线程模式不能充分利用多核CPU的优势,因为这些线程都是在同一个进程中运行的,而GIL只允许有一个线程在同一时间内执行Python代码。因此,在需要利用多核CPU的情况下,需要使用多进程方式。 基于多进程的方式,可以将一个任务划分为若干个子任务,每个子任务运行在独立的进程中,它们之间互不干扰。这样,每个进程都可以利用独立的CPU核心来执行任务,从而提高了并发性和整体运行效率。而且,在多进程模式下,Python可以很好地利用操作系统的资源管理功能,同时能够充分利用硬件资源,实现高效的数据爬取。 总的来说,Python多线程多进程方式都可以用来实现数据爬取,并且都有各自的优点和适用场景。在实际应用中,应该根据任务的复杂度和硬件环境等因素来选择最适合的方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值