python 多任务_多任务Python爬虫

最新推荐文章于 2024-02-22 23:52:55 发布

FFFire小火

最新推荐文章于 2024-02-22 23:52:55 发布

阅读量147

点赞数

文章标签： python 多任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29597551/article/details/113965566

版权

一、多任务简介

1、为什么要使用多任务爬虫？

在大量的url需要请求时，单线程/单进程去爬取，速度太慢，此时cpu不工作，浪费cpu资源。

爬取与写入文件分离，可以规避io操作，增加爬取速度，充分利用cpu。

2、多任务分类

进程：进程是操作资源分配的最小单位，一个运行的程序，至少包括一个进程，进程之间数据不能共享。(利用多核)

线程：线程是cpu调度的最小单位，一个进程中至少含有一个线程，线程中数据是共享的，如果多个线程操作同一个对象时，需要考虑数据安全问题。(爬虫中最常用)

协程：协程位于线程内部，如果一个线程中运行的代码，遇到IO操作时，切换到线程其他代码执行(最大程度的规避IO操作)

2、如何提高程序的运行速度

1、提高CPU的利用率

假如我们的程序有只有一个线程，CPU就只处理这一个线程。如果在程序中遇到IO操作。此时CPU就不工作了。休息的这段时间，就浪费了CPU的资源。

若我们的程序是多线程的，CPU会在这多个任务之间切换，如果其中一个线程阻塞了，CPU不会休息，会处理其他线程。

2、增加CPU数量

一个CPU同一时间只能护理一个任务，若我们增加CPU数量，那么多个CPU处理多个任务，也会提升程序的运行速度，例如使用多进程。

二、python中的threading模块(开启多线程)

cpython 解释器下的 python中没有真正的多线程(因为多个线程不能同时在多核上执行，只能在一个CPU上进行多个线程的切换轮流执行，在视觉效果上看起来同时在执行)，造成这个情况的原因是因为GIL(全局性解释器锁)，在一个进程中，多个线程是数据共享的，如果不设置全局解释性锁，多个线程可能在同一时间对同一个变量进行操作，造成变量的引用计数不正确，影响其进行垃圾回收，所以需要加全局性解释器锁。

2.1、多线程开启方法

from threading import Thread

1、使用函数

t = Thread(

target=线程执行的任务(方法)名字，

args = 执行方法的参数，是一个元组

)---创建线程

t.start()---启动线程

2、使用类

class Mythread(Thread)

def __init__(self,参数)

self.参数=参数

super(Mythread,self).__init__()

def run(self):

将需要多任务执行的代码，添加到此处

if __name__ == '__main__':

my = Mythread(参数)

my.start()

2.2、线程中常用的几个方法

from threading import Thread, current_thread, enumerate, active_count

import time

import random

class MyThread(Thread):

def run(self):

t

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 多任务_多任务Python爬虫

一、多任务简介1、为什么要使用多任务爬虫？在大量的url需要请求时，单线程/单进程去爬取，速度太慢，此时cpu不工作，浪费cpu资源。爬取与写入文件分离，可以规避io操作，增加爬取速度，充分利用cpu。2、多任务分类进程：进程是操作资源分配的最小单位，一个运行的程序，至少包括一个进程，进程之间数据不能共享。(利用多核)线程：线程是cpu调度的最小单位，一个进程中至少含有一个线程，线程中数据是共享的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。