python爬虫之多线程爬虫和threading模块

一、多线程爬虫

(一)程序、进程和线程。

			程序:就相当于一个应用。
			进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。
			线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。
			线程的划分尺度比进程更小。
**(二)为什么多进程和多线程可以提高程序的运行速度?**
		1、提高程序的运行速度的第一种方法:提高cpu的利用率。
			解决的方式:cpu不用休息就可以做到。
			现在我们的程序有一个线程。cpu就只处理它。
				如果在程序中遇到:阻塞。一旦阻塞了,cpu就休息了。休息的这段时间,就浪费了cpu的资源。
				有两种方式可以阻塞:time.sleep()、遇到io									
			多线程:多个任务。cpu会在这多个任务之间切换,如果其中一个线程阻塞了,cpu不会休息,会继续处理其他线程。
		2、提高程序运行速度第二种方法:增加cpu(多进程),让每个cpu处理一个任务。
			cpu的多核的。---利用cpu的多核进行解决。---cpu每一个核处理一个进程。--用多进程去处理。
		3、并发和并行。
				并发:基于一个CPU,多个线程/进程之间切换着执行
				并行:真正意义上的同时执行
				全局性解释锁:python多任务处理效率并不好。
					cpython--c语言实现的编译器---默认。
					jpython---java实现的
					pypython--python语言实现的。

(三)什么是多线程:程序中包含多个并行执行流。

二、python中的threading模块

**一个功能的实现不外乎就两种:调用别人接口,自己丰衣足食**
		1、多线程的开启方法
			(1)使用threading模块的方法
						t = threading.Thread(
								target=线程执行的任务(方法)名字,
								args = 执行方法的参数,是一个元组,或kwargs = 字典
							)---创建线程
						t.start()---启动线程
		    (2)使用自定义类的形式来创建线程
				利用面向对象继承的思想。
					子类继承父类,子类拥有父类非私有的任何资源。
					程序在运行时,当子类调用一个方法或者属性的时候,先去子类中找,如果找不到,就一层层向上,去父类中找。(继承具有传递性)
				自定义线程类:
					a、继承threading.Thread ----> 拥有功能
					*b、保证父类的init方法能够被调用。*
						如何调用父类的init方法:
							super().__init__()
							threading.Thread.__init__(self)
					用类去创建线程的步骤:
						1、继承Thread
						2、重写run方法
						3、实例化线程类,就相当于创建一个线程,用这个对象调用start()方法就可以启动这个线程
						4、如果自定义线程类,要实现init方法,必须先调动父类的init方法。
		2、线程的名称:可以帮我们测试时哪个线程做了哪些事。
			线程对象.name查看:默认是Thread-1,Thread-2....
			自定名称:其实就是给self.name赋值
		4、查看线程的数量
			threading.enumerate()--可以查看当前进程中的线程的数量		
		5、线程的执行顺序是混乱的。原因是:线程的状态决定的。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值