brpc源码学习(七)- 无锁mpsc队列ExecutionQueue

ExecutionQueue是一个无锁的mpsc队列,主要逻辑其实就是brpcclient端发送数据时多线程向同一个fd写入数据,后来单独抽出来成为ExecutionQueue,官方文档中描述基本功能如下:

  1. 异步有序执行: 任务在另外一个单独的线程中执行, 并且执行顺序严格和提交顺序一致,任务提交是wait-free的
  2. Multi Producer: 多个线程可以同时向一个ExecutionQueue提交任务
  3. 支持cancel一个已经提交的任务
  4. 支持stop
  5. 支持高优任务插队,且执行顺序也会严格按照提交顺序

 

首先看下使用ExecutionQueue的例子,定义执行函数consume和执行任务DemoTask,consume函数中就是遍历所有task,然后执行每个task的run;然后定义一个ExecutionQueue,使用execution_queue_start启动,使用execution_queue_execute提交一个新的任务。

这里consume为什么使用for循环的原因后面会讲。

然后看下这个样例背后发生了什么,首先启动一个ExecutionQueue,调用链如下

id为64位类型, 相当于ExecutionQueue实例的一个弱引用, 可以wait-free的在O(1)时间内定位一个ExecutionQueue,option和meta我们传的都是null,所以先不关注,execute即刚刚定义的consume函数

然后设置该ExecutionQueue的各个成员,_type_specific_function即用户自定义的consume函数,_execute_func为execute_task,其实就是调用用户自定义的consume函数;然后生成id返回。

然后看下执行一个任务,其中butil::add_const_reference<T>::type就是const T&,首先会通过id address到ExecutionQueue,然后调用execute,在示例的场景下option和handle均为null。

首先申请一个TaskNode,TaskNode就是链表的节点,启动的任务task会存在节点TaskNode中,主要结构如下:

其中若task结构小于56字节,则直接存储在static_task_mem中,否则存储在dynamic_task_mem中。

ExecutionQueue中有一个结构为TaskAllocator<T>,会根据static_task_mem能否存下T来决定使用哪个特化版本,若small_object为true,则allocate直接返回static_task_mem,否则使用malloc来分配内存,在示例用法中,T为指针,DemoTask*,所以使用的是static_task_mem。

然后调用allocator的allocate,如上所述,这里直接返回node的static_task_mem,然后在这块内存上调用placement_new,所以DemoTask*便赋值到了static_task_mem上。然后设置优先级等,因为传入的TaskOptions为null,所以不是高优,然后执行start_execute。

首先设置node的next为UNCONNECTED,UNCONNECTED为-1,表示当前节点还没有链入到链表中,_head为当前execution_queue的链表头节点,然后原子指令exchange后,链表头节点成为node,node的next为UNCONNECTED,此时链表是断链的,prev_head为链表之前的头结点,如果prev_head不为null,那么说明之前已经启动过消费bthread了,因此只需设置头节点的next为prev_head,然后直接return即可,此时node才真正的链入了链表;如果prev_head不为null,则需要启动消费bthread。这里exchange使用release,是为了让消费bthread看到对node的修改。

然后设置next为null,因为默认情况下in_place为false,executor为null,所以会直接启动一个bthread后台执行_execute_tasks。如果使用了in_place则会立即执行_execute_tasks,在无竞争的场景中可以省去一次线程调度和cache同步的开销,不过谨慎使用,需要检查会不会发生死锁等情况。

然后结合示意图看下之后会发生什么,假设此时时间点t1,现在队列里只有一个节点,

_execute_tasks中设置cur_tail为null,然后进入for循环,初始时head中的iterated为false,也没有高优任务,因此直接执行m->_execute()

_execute中会生成迭代器,然后调用_execute_func,这个上文有提到,就是执行用户指定的执行函数,即示例中的consume

然后看下TaskIterBase,主要成员为_cur_node,表示当前遍历到了哪个节点,_head,表示当前执行队列的head,和_high_priorty,表示该iterator的优先级,而且低优迭代器只会遍历低优任务,高优迭代器只会遍历高优任务。

在consume函数中,通过解引用TaskIter得到了DemoTask*,这块逻辑如下,上文中说到DemoTask*存在了TaskNode的static_task_mem中,这里get_allocated_mem则是直接返回static_task_mem,因此便拿到了加到队列中的DemoTask*。

然后看下自增操作,首先判断当前节点是否遍历过,在示例中节点1的iterated为false,所以直接往下进入while循环,因为当前生成的是低优先级的iter,node也是低优先级,所以进入if,在第二个if中,iterated为false,peek_to_execute是判断当前节点状态是否为UNEXECUTED,因此也进入第二个if,将当前节点iterated置为true直接返回。注意上面TaskIter的构造函数会执行一次operator++,所以就会将节点1的iterated置为true

在Iter的析构中,会将从_head到_cur_node区间所有相同优先级节点设置为EXECUTED

然后回到_execute_tasks函数的_execute之后,head即节点1被执行结束了,head的next为null,cur_tail为null,所以cur_tail被置为了head。_execute结束后,生成的Iter被析构,如上所述,Iter析构会设置1的状态为EXECUTED。

然后执行_more_tasks,假设此时为t2,又入队了两个新的节点,如下图所示

此时old_head指向1,*new_tail为1,new_head指向1,desired为null,return_when_no_more为false,然后通过cas操作,如果_head还是指向1,说明队列中没有新加的节点,那么_head被置为null,返回false,这里使用acquire是和入队进行配对,保证看到对node的修改;在上图这个例子中,新加了2,3两个节点,此时_head指向3,所以new_head被设置为3。

假设执行到此时为t3,又新加了两个节点,如下图

然后开始反转链表的new_head到old_head区间,*new_tail指向3,注意在反转前会判断new_head的next是否为UNCONNECTED,如上文所述,在将一个节点加入到链表的过程中有一段时间是断链的,这种情况下就调用sched_yield将执行权从当前bthread切换到其他bthread,直到链表链接起来。

此时整个执行队列如下图所示,此时节点1已被执行过,但仍在队列中,回到上文的_execute_tasks,下次循环时,首先head是否被遍历过,如果遍历过,则将该节点释放;

 

然后执行_execute,_execute中会执行2,3,接着释放节点2,继续链表反转,此时队列结构如下图,后面的过程则和上文类似不再赘述。

然后看下本文最开始的问题,consume中为什么要写成for循环的方式,只run一个是否可以,这里其实是为了性能考虑,只run一个也是可以的,不过run完之后要执行more_task等等一系列操作,而写成for循环方式的话只有run到null之后才会执行more_task等操作,所以性能会好一些。

 

最后看下当提交一个高优任务时会发生什么

假设t3时刻加入的5是high_priority,那么执行完_more_task第二次循环时,摘掉已执行过的节点1之后的队列情况如下图

因为在start_execute的时候,_high_priority_tasks会加一,所以在_execute_tasks的第二次循环中,会发现_high_priority_tasks不为0,执行_execute的时候会将high_priority置为true,_execute所做的事情为生成一个iter,然后执行用户自定义函数consume,因为此时是high_priority,因此生成的iter也是high

在_execute中生成iter,iter构造函数中执行++,会遍历2,3,null,因为iter为null,所以_execute直接返回,并且如上文所述该iter析构并不会设置低优task的执行状态;此时nexecuted为0,所以调用sched_yield切出去一会,这里的原因其实是因为在新增高优任务的时候是先增加高优任务的计数器,然后再将高优任务加到队列中,所以如果遍历了一遍队列发现没高优任务就切出去,等待高优任务的入队。

然后开始调用_more_task,cur_tail指向节点3,经过反转链表后如下图所示

重新执行_execute,生成高优iter,执行++,遍历到5的时候设置5的iterated为true,然后return,调用用户自定义执行函数consume,consume中的++又会跳过所有低优任务到达null,

此时再执行_more_task时,因为head节点iterated为false,所以has_uniterated为true,此时desired指向5,return_when_no_more为true,此时再经过cas时会直接返回true;下一轮循环中会生成低优迭代器执行队列中2,3,4,并在回收内存时将5的内存一并回收。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值