python多线程

最新推荐文章于 2023-06-16 14:54:30 发布

aitiaohao9846

最新推荐文章于 2023-06-16 14:54:30 发布

阅读量104

点赞数

文章标签： python 爬虫 c/c++

原文链接：http://www.cnblogs.com/gaosie/p/10803030.html

版权

1.什么是python GIL

　　全局解释器锁,Python中的一个线程对应于c语言的一个线程,gil使得同一个时刻只有一个线程在一个cpu上执行字节码,无法将多个线程映射到多个cpu上执行

2.创建线程的两种方式

  #函数创建
        import threading
        import time
        def get_url(t):
            print(t)
            time.sleep(2)
        def get_html(t):
            print(t)
            time.sleep(2)
        t1 = threading.Thread(target=get_url, args=('get_url',))
        t2 = threading.Thread(target=get_html, args=('get_html',))
        #设置线程随主线结束而结束 必须在start之前调用
        t1.setDaemon(True)
        t2.setDaemon(True)
        #主线程等待子线程的结束而结束
        t1.join()
        t2.join()
        print('线程结束')

        #类创建
        import threading
        import time
        class GetUrl(threading.Thread):
            def run(self):
                print('geturl')
        class GetHtml(threading.Thread):
            def run(self):
                print('gethtml')
        
        t1 = GetUrl()
        t2 = GetHtml()
        t1.start()
        t2.start()
        #设置线程随主线结束而结束 必须在start之前调用
        t1.setDaemon(True)
        t2.setDaemon(True)
        #主线程等待子线程的结束而结束
        t1.join()
        t2.join()+
        print('线程结束')

3.线程间通信
　　使用Queue　　　　　

import threading
from queue import Queue
import time

def get_url(t):
    i = 0
    while True:
        i+=1
        que.put(i)
        time.sleep(2)
def get_html(t):
    j = 0
    while True:
        print(que.get())
        time.sleep(2)
que = Queue(maxsize=10)
t1 = threading.Thread(target=get_url, args=('get_url',))
t2 = threading.Thread(target=get_html, args=('get_html',))
t1.start()
t2.start()
que.join()
#设置线程随主线结束而结束 必须在start之前调用
# t1.setDaemon(True)
# t2.setDaemon(True)
#主线程等待子线程的结束而结束
t1.join()
t2.join()
print('线程结束')

View Code

　　常用方法　　　

  　　 q.qsize() 返回队列的大小

   　　 q.empty() 如果队列为空，返回True,反之False

   　　 q.full() 如果队列满了，返回True,反之False

   　　 q.full 与 maxsize 大小对应

   　　 q.get([block[, timeout]]) 获取队列，timeout等待时间

    　　q.get_nowait() 相当q.get(False) 非阻塞 q.put(item) 写入队列，timeout等待时间

   　　 q.put_nowait(item) 相当q.put(item, False)

    　　q.task_done() 在完成一项工作之后，q.task_done() 函数向任务已经完成的队列发送一个信号

    　　q.join() 实际上意味着等到队列为空，再执行别的操作

4.线程锁Lock Rlock

from threading import Lock,RLock
from threading import Thread
total = 0
lock = Lock()
#使用Rlock 在同一个线程里面 可以连续多次调用多次acquire 一定要注意acquire的次数要跟release的次数相同
def add():
    global total
    global lock
    for i in range(1000000):
        lock.acquire()
        total += 1
        lock.release()
def desc():
    global total
    global lock
    for i in range(1000000):
        lock.acquire()
        total -= 1
        lock.release()

t1 = Thread(target=add, args=())
t2 = Thread(target=desc, args=())
t1.start()
t2.start()
t1.join()
t2.join()
print(total)

View Code

5.线程condition

　　所谓条件变量，即这种机制是在满足了特定的条件后，线程才可以访问相关的数据。

　　比如生产者消费者模型我们可以通过condition控制数量的增减

　　Condition（条件变量）通常与一个锁关联。需要在多个Contidion中共享一个锁时，可以传递一个Lock/RLock实例给构造方法，否则它将自己生成一个RLock

　　实例。

　　可以认为，除了Lock带有的锁定池外，Condition还包含一个等待池，池中的线程处于状态图中的等待阻塞状态，直到另一个线程调用notify()/notifyAll()通知；　　

　　得到通知后线程进入锁定池等待锁定。

　　Condition():

acquire(): 线程锁
release(): 释放锁
wait(timeout): 线程挂起，直到收到一个notify通知或者超时（可选的，浮点数，单位是秒s）才会被唤醒继续运行。wait()必须在已获得Lock前提下才能调用，否则会触发RuntimeError。
notify(n=1): 通知其他线程，那些挂起的线程接到这个通知之后会开始运行，默认是通知一个正等待该condition的线程,最多则唤醒n个等待的线程。notify()必须在已获得Lock前提下才能调用，否则会触发RuntimeError。notify()不会主动释放Lock。
notifyAll(): 如果wait状态线程比较多，notifyAll的作用就是通知所有线程

　　实现场景：当a同学王火锅里面添加鱼丸加满后（最多5个，加满后通知b去吃掉），通知b同学去吃掉鱼丸（吃到0的时候通知a同学继续添加）

 1 from threading import Thread
 2 from threading import Condition
 3 import time
 4 num = 0
 5 class shengchan(Thread):
 6     def __init__(self, con):
 7         super().__init__(name='生产者')
 8         self.con = con
 9     def run(self):
10         print(self.name)
11         global num
12         self.con.acquire()
13         while True:
14             print('开始添加')
15             num +=1
16             print('鱼丸个数%s',str(num))
17             time.sleep(2)
18 
19             if num >= 5:
20                 print('火锅里的鱼丸超过5个')
21                 self.con.notify()
22                 self.con.wait()
23 
24         self.con.release()
25 
26 class xiaofeizhe(Thread):
27     def __init__(self, con):
28         super().__init__(name='消费者')
29         self.con = con
30     def run(self):
31         global num
32         print(self.name)
33         self.con.acquire()
34         while True:
35             print('开始消费')
36             num -= 1
37             print('鱼丸个数%s',str(num))
38             time.sleep(2)
39             if num <=0 :
40                 print('火锅里的鱼丸消费完毕')
41                 self.con.notify()
42                 self.con.wait()
43         self.con.release()
44 con = Condition()
45 s = shengchan(con)
46 c = xiaofeizhe(con)
47 s.start()
48 c.start()

View Code

6.Semaphore信号量

　　threading模块里的Semaphore类实现了信号量对象，可用于控制获取资源的线程数量。所具有的acquire()和release()方法，可以用with语句的上下文管理器。　　当进入时，将调用acquire()方法，当退出时，将调用release()。

　　emaphore是一个内置的计数器

　　每当调用acquire()时，内置计数器-1
　　每当调用release()时，内置计数器+1

　　计数器不能小于0，当计数器为0时，acquire()将阻塞线程直到其他线程调用release()。

from threading import Thread
from threading import Semaphore
import time
class Test(Thread):
    def __init__(self,sem):
        super().__init__()
        self.sem = sem
    def run(self):
    
        time.sleep(2)
        print('控制线程并发数量')
        self.sem.release()

sem = Semaphore(3)
for i in range(300000):

    sem.acquire()
    t = Test(sem)
    t.start()

View Code

7.线程同步顺序执行

from threading import Thread
from threading import Lock
from threading import Semaphore
import time
def test1():
    while True:
        l1.acquire()
        print('线程1')
        time.sleep(1)
        l2.release()



def test2():
    while True:
        l2.acquire()
        print('线程2')
        time.sleep(1)
        l3.release()


def test3():
    while True:
        l3.acquire()
        print('线程3')
        time.sleep(1)
        l1.release()


l1 = Lock()
l2 = Lock()
l3 = Lock()

t1 = Thread(target=test1, )
t2 = Thread(target=test2, )
t3 = Thread(target=test3, )
l2.acquire()
l3.acquire()
t1.start()
t2.start()
t3.start()

View Code

8.线程池

　　Python中已经有了threading模块，为什么还需要线程池呢，线程池又是什么东西呢？在介绍线程同步的信号量机制的时候，举得例子是爬虫的例子，需要控　　

　　制同时爬取的线程数，例子中创建了20个线程，而同时只允许3个线程在运行，但是20个线程都需要创建和销毁，线程的创建是需要消耗系统资源的，有没有　　

　　更好的方案呢？其实只需要三个线程就行了，每个线程各分配一个任务，剩下的任务排队等待，当某个线程完成了任务的时候，排队任务就可以安排给这个线

　　程继续执行。

　　这就是线程池的思想（当然没这么简单），但是自己编写线程池很难写的比较完美，还需要考虑复杂情况下的线程同步，很容易发生死锁。从Python3.2开

　　始，标准库为我们提供了concurrent.futures模块，它提供了ThreadPoolExecutor和ProcessPoolExecutor两个类，实现了对threading和multiprocessing　　的进　　一步抽象（这里主要关注线程池），不仅可以帮我们自动调度线程，还可以做到：

主线程可以获取某一个线程（或者任务的）的状态，以及返回值。
当一个线程完成的时候，主线程能够立即知道。
让多线程和多进程的编码接口一致。

from concurrent.futures import ThreadPoolExecutor
import time

def get_html(times):
    time.sleep(times)
    return times

executor = ThreadPoolExecutor(max_workers=2)
#通过submit函数提交执行的函数到线程中,submit函数立即返回 不阻塞
task1 = executor.submit(get_html, (3))
task2 = executor.submit(get_html, (2))
#done方法用于判断某个任务是否完成
print(task1.done())
#cancel方法用于取消某个任务 该任务没有放入线程池中才能取消成功
print(task2.cancel())
time.sleep(4)
print(task1.done())
#result获取task的执行结果
print(task1.result())

View Code

　　as_completed

　　上面虽然提供了判断任务是否结束的方法，但是不能在主线程中一直判断啊。有时候我们是得知某个任务结束了，就去获取结果，而不是一直判断每个任务有　　没有结束。这是就可以使用as_completed方法一次取出所有任务的结果。

from concurrent.futures import ThreadPoolExecutor, as_completed
import time

# 参数times用来模拟网络请求的时间
def get_html(times):
    time.sleep(times)
    print("get page {}s finished".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
urls = [3, 2, 4] # 并不是真的url
all_task = [executor.submit(get_html, (url)) for url in urls]

for future in as_completed(all_task):
    data = future.result()
    print("in main: get page {}s success".format(data))

# 执行结果
# get page 2s finished
# in main: get page 2s success
# get page 3s finished
# in main: get page 3s success
# get page 4s finished
# in main: get page 4s success

　　as_completed()方法是一个生成器，在没有任务完成的时候，会阻塞，在有某个任务完成的时候，会yield这个任务，就能执行for循环下面的语句，然后继续　　阻塞住，循环到所有的任务结束。从结果也可以看出，先完成的任务会先通知主线程。

　　map

　　除了上面的as_completed方法，还可以使用executor.map方法，但是有一点不同。

from concurrent.futures import ThreadPoolExecutor
import time

# 参数times用来模拟网络请求的时间
def get_html(times):
    time.sleep(times)
    print("get page {}s finished".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
urls = [3, 2, 4] # 并不是真的url

for data in executor.map(get_html, urls):
    print("in main: get page {}s success".format(data))
# 执行结果
# get page 2s finished
# get page 3s finished
# in main: get page 3s success
# in main: get page 2s success
# get page 4s finished
# in main: get page 4s success

View Code

　　使用map方法，无需提前使用submit方法，map方法与python标准库中的map含义相同，都是将序列中的每个元素都执行同一个函数。上面的代码就是对urls的　　每个元素都执行get_html函数，并分配各线程池。可以看到执行结果与上面的as_completed方法的结果不同，输出顺序和urls列表的顺序相同，就算2s的任　　务先执行完成，也会先打印出3s的任务先完成，再打印2s的任务完成。

　　wait

　　wait方法可以让主线程阻塞，直到满足设定的要求。

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED, FIRST_COMPLETED
import time

# 参数times用来模拟网络请求的时间
def get_html(times):
    time.sleep(times)
    print("get page {}s finished".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
urls = [3, 2, 4] # 并不是真的url
all_task = [executor.submit(get_html, (url)) for url in urls]
wait(all_task, return_when=ALL_COMPLETED)
print("main")
# 执行结果 
# get page 2s finished
# get page 3s finished
# get page 4s finished
# main

View Code

　　wait方法接收3个参数，等待的任务序列、超时时间以及等待条件。等待条件return_when默认为ALL_COMPLETED，表明要等待所有的任务都结束。可以看到运　　行结果中，确实是所有任务都完成了，主线程才打印出main。等待条件还可以设置为FIRST_COMPLETED，表示第一个任务完成就停止等待。

。

转载于:https://www.cnblogs.com/gaosie/p/10803030.html

aitiaohao9846

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多线程

1.什么是python GIL　　全局解释器锁,Python中的一个线程对应于c语言的一个线程,gil使得同一个时刻只有一个线程在一个cpu上执行字节码,无法将多个线程映射到多个cpu上执行2.创建线程的两种方式 #函数创建 import threading import time def get_url(t):...
复制链接

扫一扫