python学习(二)爬虫——爬取网站小说并保存为txt文件(三)

本文介绍了如何使用Python的threading模块提高爬虫的效率,通过多线程爬取小说并保存为TXT文件。文章详细讲解了线程同步、锁的使用以及如何处理线程中的数据不同步问题,最终实现高效的小说下载。
摘要由CSDN通过智能技术生成

python上一篇写了怎样获取整本小说并写入文件,但是速度实在太慢,这一篇我们使用多线程来提高爬取速度

一:多线程模块 threading

  1. 创建线程

    创建线程有两种方法
    第一种是继承threading.Thread类,并重写它的init和run函数
    代码如下:

import threading

class gettext(threading.Thread):
    def __init__(self,threadName):
        #调用父类的构造函数
        threading.Thread.__init__(self)
        self.threadName = threadName

    def run(self):
        print(self.threadName)

这里的self是一个指向当前对象的指针,用它来进行初始化和调用成员变量

将类定义好后,就可以创建线程了,代码如下:

#保存所有线程的列表
threads = []

#创建5个线程
for i in range(5):
    #创建一个线程
    thread = gettext('Thread-'+str(i))
    #将创建好的线程添加到线程列表
    threads.append(thread)
    #启动线程
    thread.start()

#等待所有线程结束
for t in threads:
    t.join()

print('线程结束')

运行结果:
示例1


这和预期的输出有点不同:
示例2


这是由于线程不同步造成的,在程序中输出流只有一个,但是线程却有多个,而且线程又是同时运行的,所以就会出现多个线程同时访问同一个资源的情况。
所以在使用多线程的时候,我们要对共有资源的访问加以限制,使得同时只能有一个线程访问。就像一把锁一样,在有线程访问资源的时候把资源锁起来不让其他线程访问,等到当前线程结束对共有资源的操作后再把锁打开,让其他线程可以访问。

如果多个线程共同对某个数据修改,则可能出现不可预料的结果,为了保证数据的正确性,需要对多个线程进行同步。

使用 Thread 对象的 Lock 和 Rlock 可以实现简单的线程同步,这两个对象都有 acquire 方法和 release
方法,对于那些需要每次只允许一个线程操作的数据,可以将其操作放到 acquire 和 release 方法之间。如下:

多线程的优势在于可以同时运行多个任务(至少感觉起来是这样)。但是当线程需要共享数据时,可能存在数据不同步的问题。

考虑这样一种情况:一个列表里所有元素都是0,线程”set”从后向前把所有元素改成1,而线程”print”负责从前往后读取列表并打印。

那么,可能线程”set”开始改的时候,线程”print”便来打印列表了,输出就成了一半0一半1,这就是数据的不同步。为了避免这种情况,引入了锁的概念。

锁有两种状态——锁定和未锁定。每当一个线程比如”set”要访问共享数据时,必须先获得锁定;如果已经有别的线程比如”print”获得锁定了,那么就让线程”set”暂停,也就是同步阻塞;等到线程”print”访问完毕,释放锁以后,再让线程”set”继续。

经过这样的处理,打印列表时要么全部输出0,要么全部输出1,不会再出现一半0一半1的尴尬场面。

这里的锁就是threading的Lock方法,代码如下:

import threading

class gettext(threading.Thread):
    <
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值