python学习（二）爬虫——爬取网站小说并保存为txt文件（三）

最新推荐文章于 2024-06-24 18:45:00 发布

置顶

渔父歌

最新推荐文章于 2024-06-24 18:45:00 发布

阅读量3.6k

点赞数

分类专栏： python python爬虫入门文章标签： python爬虫 python多线程 python学习

本文链接：https://blog.csdn.net/qq_40695895/article/details/79645237

版权

本文介绍了如何使用Python的threading模块提高爬虫的效率，通过多线程爬取小说并保存为TXT文件。文章详细讲解了线程同步、锁的使用以及如何处理线程中的数据不同步问题，最终实现高效的小说下载。

摘要由CSDN通过智能技术生成

python上一篇写了怎样获取整本小说并写入文件，但是速度实在太慢，这一篇我们使用多线程来提高爬取速度

一：多线程模块 threading

创建线程

创建线程有两种方法
第一种是继承threading.Thread类，并重写它的init和run函数
代码如下：

import threading

class gettext(threading.Thread):
    def __init__(self,threadName):
        #调用父类的构造函数
        threading.Thread.__init__(self)
        self.threadName = threadName

    def run(self):
        print(self.threadName)

这里的self是一个指向当前对象的指针，用它来进行初始化和调用成员变量

将类定义好后，就可以创建线程了，代码如下：

#保存所有线程的列表
threads = []

#创建5个线程
for i in range(5):
    #创建一个线程
    thread = gettext('Thread-'+str(i))
    #将创建好的线程添加到线程列表
    threads.append(thread)
    #启动线程
    thread.start()

#等待所有线程结束
for t in threads:
    t.join()

print('线程结束')

运行结果：
示例1

这和预期的输出有点不同：
示例2

这是由于线程不同步造成的，在程序中输出流只有一个，但是线程却有多个，而且线程又是同时运行的，所以就会出现多个线程同时访问同一个资源的情况。
所以在使用多线程的时候，我们要对共有资源的访问加以限制，使得同时只能有一个线程访问。就像一把锁一样，在有线程访问资源的时候把资源锁起来不让其他线程访问，等到当前线程结束对共有资源的操作后再把锁打开，让其他线程可以访问。

如果多个线程共同对某个数据修改，则可能出现不可预料的结果，为了保证数据的正确性，需要对多个线程进行同步。

使用 Thread 对象的 Lock 和 Rlock 可以实现简单的线程同步，这两个对象都有 acquire 方法和 release
方法，对于那些需要每次只允许一个线程操作的数据，可以将其操作放到 acquire 和 release 方法之间。如下：

多线程的优势在于可以同时运行多个任务（至少感觉起来是这样）。但是当线程需要共享数据时，可能存在数据不同步的问题。

考虑这样一种情况：一个列表里所有元素都是0，线程”set”从后向前把所有元素改成1，而线程”print”负责从前往后读取列表并打印。

那么，可能线程”set”开始改的时候，线程”print”便来打印列表了，输出就成了一半0一半1，这就是数据的不同步。为了避免这种情况，引入了锁的概念。

锁有两种状态——锁定和未锁定。每当一个线程比如”set”要访问共享数据时，必须先获得锁定；如果已经有别的线程比如”print”获得锁定了，那么就让线程”set”暂停，也就是同步阻塞；等到线程”print”访问完毕，释放锁以后，再让线程”set”继续。

经过这样的处理，打印列表时要么全部输出0，要么全部输出1，不会再出现一半0一半1的尴尬场面。

这里的锁就是threading的Lock方法，代码如下：

import threading

class gettext(threading.Thread):
    <

最低0.47元/天解锁文章

渔父歌

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录