一、多任务简介
1、为什么要使用多任务爬虫?
在大量的url需要请求时,单线程/单进程去爬取,速度太慢,此时cpu不工作,浪费cpu资源。
爬取与写入文件分离,可以规避io操作,增加爬取速度,充分利用cpu。
2、多任务分类
进程:进程是操作资源分配的最小单位,一个运行的程序,至少包括一个进程,进程之间数据不能共享。(利用多核)
线程:线程是cpu调度的最小单位,一个进程中至少含有一个线程,线程中数据是共享的,如果多个线程操作同一个对象时,需要考虑数据安全问题。(爬虫中最常用)
协程:协程位于线程内部,如果一个线程中运行的代码,遇到IO操作时,切换到线程其他代码执行(最大程度的规避IO操作)
2、如何提高程序的运行速度
1、提高CPU的利用率
假如我们的程序有只有一个线程,CPU就只处理这一个线程。如果在程序中遇到IO操作。此时CPU就不工作了。休息的这段时间,就浪费了CPU的资源。
若我们的程序是多线程的,CPU会在这多个任务之间切换,如果其中一个线程阻塞了,CPU不会休息,会处理其他线程。
2、增加CPU数量
一个CPU同一时间只能护理一个任务,若我们增加CPU数量,那么多个CPU处理多个任务,也会提升程序的运行速度,例如使用多进程。
二、python中的threading模块(开启多线程)
cpython 解释器下的 python中没有真正的多线程(因为多个线程不能同时在多核上执行,只能在一个CPU上进行多个线程的切换轮流执行,在视觉效果上看起来同时在执行),造成这个情况的原因是因为GIL(全局性解释器锁),在一个进程中,多个线程是数据共享的,如果不设置全局解释性锁,多个线程可能在同一时间对同一个变量进行操作,造成变量的引用计数不正确,影响其进行垃圾回收,所以需要加全局性解释器锁。
2.1、多线程开启方法
from threading import Thread
1、使用函数
t = Thread(
target=线程执行的任务(方法)名字,
args = 执行方法的参数,是一个元组
)---创建线程
t.start()---启动线程
2、使用类
class Mythread(Thread)
def __init__(self,参数)
self.参数=参数
super(Mythread,self).__init__()
def run(self):
将需要多任务执行的代码,添加到此处
if __name__ == '__main__':
my = Mythread(参数)
my.start()
2.2、线程中常用的几个方法
from threading import Thread, current_thread, enumerate, active_count
import time
import random
class MyThread(Thread):
def run(self):
t