python上一篇写了怎样获取整本小说并写入文件,但是速度实在太慢,这一篇我们使用多线程来提高爬取速度
一:多线程模块 threading
创建线程
创建线程有两种方法
第一种是继承threading.Thread类,并重写它的init和run函数
代码如下:
import threading
class gettext(threading.Thread):
def __init__(self,threadName):
#调用父类的构造函数
threading.Thread.__init__(self)
self.threadName = threadName
def run(self):
print(self.threadName)
这里的self是一个指向当前对象的指针,用它来进行初始化和调用成员变量
将类定义好后,就可以创建线程了,代码如下:
#保存所有线程的列表
threads = []
#创建5个线程
for i in range(5):
#创建一个线程
thread = gettext('Thread-'+str(i))
#将创建好的线程添加到线程列表
threads.append(thread)
#启动线程
thread.start()
#等待所有线程结束
for t in threads:
t.join()
print('线程结束')
运行结果:
这和预期的输出有点不同:
这是由于线程不同步造成的,在程序中输出流只有一个,但是线程却有多个,而且线程又是同时运行的,所以就会出现多个线程同时访问同一个资源的情况。
所以在使用多线程的时候,我们要对共有资源的访问加以限制,使得同时只能有一个线程访问。就像一把锁一样,在有线程访问资源的时候把资源锁起来不让其他线程访问,等到当前线程结束对共有资源的操作后再把锁打开,让其他线程可以访问。
如果多个线程共同对某个数据修改,则可能出现不可预料的结果,为了保证数据的正确性,需要对多个线程进行同步。
使用 Thread 对象的 Lock 和 Rlock 可以实现简单的线程同步,这两个对象都有 acquire 方法和 release
方法,对于那些需要每次只允许一个线程操作的数据,可以将其操作放到 acquire 和 release 方法之间。如下:多线程的优势在于可以同时运行多个任务(至少感觉起来是这样)。但是当线程需要共享数据时,可能存在数据不同步的问题。
考虑这样一种情况:一个列表里所有元素都是0,线程”set”从后向前把所有元素改成1,而线程”print”负责从前往后读取列表并打印。
那么,可能线程”set”开始改的时候,线程”print”便来打印列表了,输出就成了一半0一半1,这就是数据的不同步。为了避免这种情况,引入了锁的概念。
锁有两种状态——锁定和未锁定。每当一个线程比如”set”要访问共享数据时,必须先获得锁定;如果已经有别的线程比如”print”获得锁定了,那么就让线程”set”暂停,也就是同步阻塞;等到线程”print”访问完毕,释放锁以后,再让线程”set”继续。
经过这样的处理,打印列表时要么全部输出0,要么全部输出1,不会再出现一半0一半1的尴尬场面。
这里的锁就是threading的Lock方法,代码如下:
import threading
class gettext(threading.Thread):
<