python多线程

1.什么是python GIL


  全局解释器锁,Python中的一个线程对应于c语言的一个线程,gil使得同一个时刻只有一个线程在一个cpu上执行字节码,无法将多个线程映射到多个cpu上执行

2.创建线程的两种方式

  #函数创建
        import threading
        import time
        def get_url(t):
            print(t)
            time.sleep(2)
        def get_html(t):
            print(t)
            time.sleep(2)
        t1 = threading.Thread(target=get_url, args=('get_url',))
        t2 = threading.Thread(target=get_html, args=('get_html',))
        #设置线程随主线结束而结束 必须在start之前调用
        t1.setDaemon(True)
        t2.setDaemon(True)
        #主线程等待子线程的结束而结束
        t1.join()
        t2.join()
        print('线程结束')

        #类创建
        import threading
        import time
        class GetUrl(threading.Thread):
            def run(self):
                print('geturl')
        class GetHtml(threading.Thread):
            def run(self):
                print('gethtml')
        
        t1 = GetUrl()
        t2 = GetHtml()
        t1.start()
        t2.start()
        #设置线程随主线结束而结束 必须在start之前调用
        t1.setDaemon(True)
        t2.setDaemon(True)
        #主线程等待子线程的结束而结束
        t1.join()
        t2.join()+
        print('线程结束')

3.线程间通信
  使用Queue      

  

import threading
from queue import Queue
import time

def get_url(t):
    i = 0
    while True:
        i+=1
        que.put(i)
        time.sleep(2)
def get_html(t):
    j = 0
    while True:
        print(que.get())
        time.sleep(2)
que = Queue(maxsize=10)
t1 = threading.Thread(target=get_url, args=('get_url',))
t2 = threading.Thread(target=get_html, args=('get_html',))
t1.start()
t2.start()
que.join()
#设置线程随主线结束而结束 必须在start之前调用
# t1.setDaemon(True)
# t2.setDaemon(True)
#主线程等待子线程的结束而结束
t1.join()
t2.join()
print('线程结束')
View Code

   常用方法   


      q.qsize() 返回队列的大小

      q.empty() 如果队列为空,返回True,反之False

      q.full() 如果队列满了,返回True,反之False

      q.full 与 maxsize 大小对应

      q.get([block[, timeout]]) 获取队列,timeout等待时间

      q.get_nowait() 相当q.get(False) 非阻塞 q.put(item) 写入队列,timeout等待时间

      q.put_nowait(item) 相当q.put(item, False)

      q.task_done() 在完成一项工作之后,q.task_done() 函数向任务已经完成的队列发送一个信号

      q.join() 实际上意味着等到队列为空,再执行别的操作

4.线程锁Lock Rlock

from threading import Lock,RLock
from threading import Thread
total = 0
lock = Lock()
#使用Rlock 在同一个线程里面 可以连续多次调用多次acquire 一定要注意acquire的次数要跟release的次数相同
def add():
    global total
    global lock
    for i in range(1000000):
        lock.acquire()
        total += 1
        lock.release()
def desc():
    global total
    global lock
    for i in range(1000000):
        lock.acquire()
        total -= 1
        lock.release()

t1 = Thread(target=add, args=())
t2 = Thread(target=desc, args=())
t1.start()
t2.start()
t1.join()
t2.join()
print(total)
View Code

5.线程condition

  所谓条件变量,即这种机制是在满足了特定的条件后,线程才可以访问相关的数据。

  比如生产者消费者模型 我们可以通过condition控制数量的增减

  Condition(条件变量)通常与一个锁关联。需要在多个Contidion中共享一个锁时,可以传递一个Lock/RLock实例给构造方法,否则它将自己生成一个RLock

  实例。

  可以认为,除了Lock带有的锁定池外,Condition还包含一个等待池,池中的线程处于状态图中的等待阻塞状态,直到另一个线程调用notify()/notifyAll()通知;  

  得到通知后线程进入锁定池等待锁定。

  Condition():

  • acquire(): 线程锁
  • release(): 释放锁
  • wait(timeout): 线程挂起,直到收到一个notify通知或者超时(可选的,浮点数,单位是秒s)才会被唤醒继续运行。wait()必须在已获得Lock前提下才能调用,否则会触发RuntimeError。
  • notify(n=1): 通知其他线程,那些挂起的线程接到这个通知之后会开始运行,默认是通知一个正等待该condition的线程,最多则唤醒n个等待的线程。notify()必须在已获得Lock前提下才能调用,否则会触发RuntimeError。notify()不会主动释放Lock。
  • notifyAll(): 如果wait状态线程比较多,notifyAll的作用就是通知所有线程

  实现场景:当a同学王火锅里面添加鱼丸加满后(最多5个,加满后通知b去吃掉),通知b同学去吃掉鱼丸(吃到0的时候通知a同学继续添加)

  

 1 from threading import Thread
 2 from threading import Condition
 3 import time
 4 num = 0
 5 class shengchan(Thread):
 6     def __init__(self, con):
 7         super().__init__(name='生产者')
 8         self.con = con
 9     def run(self):
10         print(self.name)
11         global num
12         self.con.acquire()
13         while True:
14             print('开始添加')
15             num +=1
16             print('鱼丸个数%s',str(num))
17             time.sleep(2)
18 
19             if num >= 5:
20                 print('火锅里的鱼丸超过5个')
21                 self.con.notify()
22                 self.con.wait()
23 
24         self.con.release()
25 
26 class xiaofeizhe(Thread):
27     def __init__(self, con):
28         super().__init__(name='消费者')
29         self.con = con
30     def run(self):
31         global num
32         print(self.name)
33         self.con.acquire()
34         while True:
35             print('开始消费')
36             num -= 1
37             print('鱼丸个数%s',str(num))
38             time.sleep(2)
39             if num <=0 :
40                 print('火锅里的鱼丸消费完毕')
41                 self.con.notify()
42                 self.con.wait()
43         self.con.release()
44 con = Condition()
45 s = shengchan(con)
46 c = xiaofeizhe(con)
47 s.start()
48 c.start()
View Code

6.Semaphore信号量

  threading模块里的Semaphore类实现了信号量对象,可用于控制获取资源的线程数量。所具有的acquire()和release()方法,可以用with语句的上下文管理器。  当进入时,将调用acquire()方法,当退出时,将调用release()。

  emaphore是一个内置的计数器

  每当调用acquire()时,内置计数器-1
  每当调用release()时,内置计数器+1

  计数器不能小于0,当计数器为0时,acquire()将阻塞线程直到其他线程调用release()

  

from threading import Thread
from threading import Semaphore
import time
class Test(Thread):
    def __init__(self,sem):
        super().__init__()
        self.sem = sem
    def run(self):
    
        time.sleep(2)
        print('控制线程并发数量')
        self.sem.release()

sem = Semaphore(3)
for i in range(300000):

    sem.acquire()
    t = Test(sem)
    t.start()
View Code

 7.线程同步顺序执行

  

from threading import Thread
from threading import Lock
from threading import Semaphore
import time
def test1():
    while True:
        l1.acquire()
        print('线程1')
        time.sleep(1)
        l2.release()



def test2():
    while True:
        l2.acquire()
        print('线程2')
        time.sleep(1)
        l3.release()


def test3():
    while True:
        l3.acquire()
        print('线程3')
        time.sleep(1)
        l1.release()


l1 = Lock()
l2 = Lock()
l3 = Lock()

t1 = Thread(target=test1, )
t2 = Thread(target=test2, )
t3 = Thread(target=test3, )
l2.acquire()
l3.acquire()
t1.start()
t2.start()
t3.start()
View Code

 8.线程池

  Python中已经有了threading模块,为什么还需要线程池呢,线程池又是什么东西呢?在介绍线程同步的信号量机制的时候,举得例子是爬虫的例子,需要控  

  制同时爬取的线程数,例子中创建了20个线程,而同时只允许3个线程在运行,但是20个线程都需要创建和销毁,线程的创建是需要消耗系统资源的,有没有  

  更好的方案呢?其实只需要三个线程就行了,每个线程各分配一个任务,剩下的任务排队等待,当某个线程完成了任务的时候,排队任务就可以安排给这个线

  程继续执行。

  这就是线程池的思想(当然没这么简单),但是自己编写线程池很难写的比较完美,还需要考虑复杂情况下的线程同步,很容易发生死锁。从Python3.2

  始,标准库为我们提供了concurrent.futures模块,它提供了ThreadPoolExecutorProcessPoolExecutor两个类,实现了对threadingmultiprocessing  的进  一步抽象(这里主要关注线程池),不仅可以帮我们自动调度线程,还可以做到:

  1. 主线程可以获取某一个线程(或者任务的)的状态,以及返回值。
  2. 当一个线程完成的时候,主线程能够立即知道。
  3. 让多线程和多进程的编码接口一致。
  
from concurrent.futures import ThreadPoolExecutor
import time

def get_html(times):
    time.sleep(times)
    return times

executor = ThreadPoolExecutor(max_workers=2)
#通过submit函数提交执行的函数到线程中,submit函数立即返回 不阻塞
task1 = executor.submit(get_html, (3))
task2 = executor.submit(get_html, (2))
#done方法用于判断某个任务是否完成
print(task1.done())
#cancel方法用于取消某个任务 该任务没有放入线程池中才能取消成功
print(task2.cancel())
time.sleep(4)
print(task1.done())
#result获取task的执行结果
print(task1.result())
View Code

 

  as_completed

  上面虽然提供了判断任务是否结束的方法,但是不能在主线程中一直判断啊。有时候我们是得知某个任务结束了,就去获取结果,而不是一直判断每个任务有  没有结束。这是就可以使用as_completed方法一次取出所有任务的结果。

  
from concurrent.futures import ThreadPoolExecutor, as_completed
import time

# 参数times用来模拟网络请求的时间
def get_html(times):
    time.sleep(times)
    print("get page {}s finished".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
urls = [3, 2, 4] # 并不是真的url
all_task = [executor.submit(get_html, (url)) for url in urls]

for future in as_completed(all_task):
    data = future.result()
    print("in main: get page {}s success".format(data))

# 执行结果
# get page 2s finished
# in main: get page 2s success
# get page 3s finished
# in main: get page 3s success
# get page 4s finished
# in main: get page 4s success

 

  as_completed()方法是一个生成器,在没有任务完成的时候,会阻塞,在有某个任务完成的时候,会yield这个任务,就能执行for循环下面的语句,然后继续  阻塞住,循环到所有的任务结束。从结果也可以看出,先完成的任务会先通知主线程

  map

  除了上面的as_completed方法,还可以使用executor.map方法,但是有一点不同。

  
from concurrent.futures import ThreadPoolExecutor
import time

# 参数times用来模拟网络请求的时间
def get_html(times):
    time.sleep(times)
    print("get page {}s finished".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
urls = [3, 2, 4] # 并不是真的url

for data in executor.map(get_html, urls):
    print("in main: get page {}s success".format(data))
# 执行结果
# get page 2s finished
# get page 3s finished
# in main: get page 3s success
# in main: get page 2s success
# get page 4s finished
# in main: get page 4s success
View Code

 

  使用map方法,无需提前使用submit方法,map方法与python标准库中的map含义相同,都是将序列中的每个元素都执行同一个函数。上面的代码就是对urls的  每个元素都执行get_html函数,并分配各线程池。可以看到执行结果与上面的as_completed方法的结果不同,输出顺序和urls列表的顺序相同,就算2s的任  务先执行完成,也会先打印出3s的任务先完成,再打印2s的任务完成。

  wait

  wait方法可以让主线程阻塞,直到满足设定的要求。

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED, FIRST_COMPLETED
import time

# 参数times用来模拟网络请求的时间
def get_html(times):
    time.sleep(times)
    print("get page {}s finished".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
urls = [3, 2, 4] # 并不是真的url
all_task = [executor.submit(get_html, (url)) for url in urls]
wait(all_task, return_when=ALL_COMPLETED)
print("main")
# 执行结果 
# get page 2s finished
# get page 3s finished
# get page 4s finished
# main
View Code

 

  wait方法接收3个参数,等待的任务序列、超时时间以及等待条件。等待条件return_when默认为ALL_COMPLETED,表明要等待所有的任务都结束。可以看到运  行结果中,确实是所有任务都完成了,主线程才打印出main。等待条件还可以设置为FIRST_COMPLETED,表示第一个任务完成就停止等待。




 

转载于:https://www.cnblogs.com/gaosie/p/10803030.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值