python多线程爬虫

Python单线程爬虫适用于小规模数据,但面对大量数据时,多线程爬虫能提升效率,尤其在处理I/O操作时。Python多线程因GIL存在而成为伪并行,但在I/O密集型任务中仍有益。多线程中通过锁解决共享变量混乱问题,使用Queue和锁进行url调度。
摘要由CSDN通过智能技术生成
python多线程爬虫

python单线程爬虫对于应付小规模数据是可以的,但是面对大量数据,我们就要用到多线程爬虫技术。使用多线程,一方面可能会加快效率,另一方面可以施加一些小技巧,如不同的线程使用不同的代理ip从而避免出发反爬机制。

python 多线程

python的多线程可以用thread类来实现,具体实现的代码很简单,直接贴上就行了。
python线程还有一些标准库函数,如 threading.current_thread() 返回当前线程信息,具体使用时候可以查文档。

def thread_job():
    #线程要做的事情

# 开启10个线程
for i in range(10):
    # thread_job是线程要调用的函数,后面也可以带参数
    t = threading.Thread(target=thread_job)
    t.start()
python多线程是不是一定更有效率

python多线程只是有可能更有效率。
python中有GIL(Global Interpreter Lock),这个是全局锁,历史遗留问题。这个东西保证了同一时刻只有一个线程在一个CPU上执行字节码,无法将多个线程映射到多个CPU上,也就是说python的多线程是伪多线程。并且线程之间的切换是有损耗的。
那么python为什么又要引入多线程呢?虽然同一时间内只能有一个线程在一个cpu上执行字节码,但是可以有多个线程去做I/O操作。在单线程中处理I/O操作是比较费时的,所以在I/O操作比较多的时候,选用多线程爬虫是有可能进效率的;而需要

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值