图虫网多线程爬取

最新推荐文章于 2024-03-22 16:54:25 发布

追梦IT男

最新推荐文章于 2024-03-22 16:54:25 发布

阅读量187

点赞数

文章标签：数据挖掘爬虫 Python

本文链接：https://blog.csdn.net/wcg541/article/details/97026975

版权

本文介绍了如何使用Python进行图虫网的多线程爬取，通过创建队列并启动多个线程抓取不同标签下的高质量图片。起始页面为https://tuchong.com/explore/，文章提供了一个简单的框架，并强调了如何处理线程和下载图片的逻辑。

摘要由CSDN通过智能技术生成

图虫网-写在前面

经历了一顿噼里啪啦的操作之后，终于我把博客写到了第10篇，后面，慢慢的会涉及到更多的爬虫模块，有人问scrapy 啥时候开始用，这个我预计要在30篇以后了吧，后面的套路依旧慢节奏的，所以莫着急了，100篇呢，预计4~5个月写完，常见的反反爬后面也会写的，还有fuck login类的内容。

图虫网-爬取图虫网

为什么要爬取这个网站，不知道哎~ 莫名奇妙的收到了，感觉图片质量不错，不是那些妖艳贱货 可以比的，所以就开始爬了，搜了一下网上有人也在爬，但是基本都是py2，py3的还没有人写，所以顺手写一篇吧。

起始页面

https://tuchong.com/explore/
这个页面中有很多的标签，每个标签下面都有很多图片，为了和谐，我选择了一个非常好的标签花卉 你可以选择其他的，甚至，你可以把所有的都爬取下来。

https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/  # 花卉编码成了  %E8%8A%B1%E5%8D%89  这个无所谓

我们这次也玩点以前没写过的，使用python中的queue，也就是队列

下面是我从别人那顺来的一些解释，基本爬虫初期也就用到这么多

1. 初始化： class Queue.Queue(maxsize) FIFO 先进先出

2\. 包中的常用方法:

    - queue.qsize() 返回队列的大小
    - queue.empty() 如果队列为空，返回True,反之False
    - queue.full() 如果队列满了，返回True,反之False
    - queue.full 与 maxsize 大小对应
    - queue.get([block[, timeout]])获取队列，timeout等待时间

3. 创建一个“队列”对象
    import queue
    myqueue = queue.Queue(maxsize = 10)

4. 将一个值放入队列中
    myqueue.put(10)

5. 将一个值从队列中取出
    myqueue.get()