图虫网多线程爬取

本文介绍了如何使用Python进行图虫网的多线程爬取,通过创建队列并启动多个线程抓取不同标签下的高质量图片。起始页面为https://tuchong.com/explore/,文章提供了一个简单的框架,并强调了如何处理线程和下载图片的逻辑。
摘要由CSDN通过智能技术生成

图虫网-写在前面

经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的,所以莫着急了,100篇呢,预计4~5个月写完,常见的反反爬后面也会写的,还有fuck login类的内容。

图虫网-爬取图虫网

为什么要爬取这个网站,不知道哎~ 莫名奇妙的收到了,感觉图片质量不错,不是那些妖艳贱货 可以比的,所以就开始爬了,搜了一下网上有人也在爬,但是基本都是py2,py3的还没有人写,所以顺手写一篇吧。

起始页面

https://tuchong.com/explore/
这个页面中有很多的标签,每个标签下面都有很多图片,为了和谐,我选择了一个非常好的标签花卉 你可以选择其他的,甚至,你可以把所有的都爬取下来。

https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/  # 花卉编码成了  %E8%8A%B1%E5%8D%89  这个无所谓

我们这次也玩点以前没写过的,使用python中的queue,也就是队列

下面是我从别人那顺来的一些解释,基本爬虫初期也就用到这么多

1. 初始化: class Queue.Queue(maxsize) FIFO 先进先出

2\. 包中的常用方法:

    - queue.qsize() 返回队列的大小
    - queue.empty() 如果队列为空,返回True,反之False
    - queue.full() 如果队列满了,返回True,反之False
    - queue.full 与 maxsize 大小对应
    - queue.get([block[, timeout]])获取队列,timeout等待时间

3. 创建一个“队列”对象
    import queue
    myqueue = queue.Queue(maxsize = 10)

4. 将一个值放入队列中
    myqueue.put(10)

5. 将一个值从队列中取出
    myqueue.get()

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值