linux rcu

最新推荐文章于 2022-12-16 17:23:40 发布

与时俱进2014

最新推荐文章于 2022-12-16 17:23:40 发布

阅读量1k

点赞数

分类专栏： kernel

kernel 专栏收录该内容

56 篇文章 3 订阅

订阅专栏

linux内核 RCU机制详解

RCU（Read-Copy Update）是数据同步的一种方式，在当前的Linux内核中发挥着重要的作用。RCU主要针对的数据对象是链表，目的是提高遍历读取数据的效率，为了达到目的使用RCU机制读取数据的时候不对链表进行耗时的加锁操作。这样在同一时间可以有多个线程同时读取该链表，并且允许一个线程对链表进行修改（修改的时候，需要加锁）。RCU适用于需要频繁的读取数据，而相应修改数据并不多的情景，例如在文件系统中，经常需要查找定位目录，而对目录的修改相对来说并不多，这就是RCU发挥作用的最佳场景。

Linux内核源码当中,关于RCU的文档比较齐全，你可以在 /Documentation/RCU/ 目录下找到这些文件。Paul E. McKenney 是内核中RCU源码的主要实现者，他也写了很多RCU方面的文章。他把这些文章和一些关于RCU的论文的链接整理到了一起。http://www2.rdrop.com/users/paulmck/RCU/

在RCU的实现过程中，我们主要解决以下问题：

1，在读取过程中，另外一个线程删除了一个节点。删除线程可以把这个节点从链表中移除，但它不能直接销毁这个节点，必须等到所有的读取线程读取完成以后，才进行销毁操作。RCU中把这个过程称为宽限期（Grace period）。

2，在读取过程中，另外一个线程插入了一个新节点，而读线程读到了这个节点，那么需要保证读到的这个节点是完整的。这里涉及到了发布-订阅机制（Publish-Subscribe Mechanism）。

3，保证读取链表的完整性。新增或者删除一个节点，不至于导致遍历一个链表从中间断开。但是RCU并不保证一定能读到新增的节点或者不读到要被删除的节点。RCU读取侧进入临界区的标志是调用rcu_read_lock，这个函数的代码是：

 
   <include/linux/rcupdate.h>
 
 static inline void rcu_read_lock(void)
 
 {
 
         __rcu_read_lock();
 
         __acquire(RCU);
 
         rcu_read_acquire();
 
 }

该实现里面貌似有三个函数调用，但实质性的工作由第一个函数__rcu_read_lock()来完成，__rcu_read_lock()通过调用 preempt_disable()关闭内核可抢占性。但是中断是允许的，假设读取者正处于rcu临界区中且刚读取了一个共享数据区的指针p(但是还没有访问p中的数据成员)，发生了一个中断，而该中断处理例程ISR恰好需要修改p所指向的数据区，按照RCU的设计原则，ISR会新分配一个同样大小的数据区new_p，再把老数据区p中的数据拷贝到新数据区，接着是在new_p的基础上做数据修改的工作(因为是在new_p空间中修改，所以不存在对p的并发访问，因此说RCU是一种免锁机制，原因就在这里)，ISR在把数据更新的工作完成后，将new_p赋值给p(p=new_p),最后它会再注册一个回调函数用以在适当的时候释放老指针p。因此，只要对老指针p上的所有引用都结束了，释放p就不会有问题。当中断处理例程做完这些工作返回后，被中断的进程将依然访问到p空间上的数据，也就是老数据，这样的结果是RCU机制所允许的。RCU规则对读取者与写入者之间因指针切换所造成的短暂的资源视图不一致问题是允许的。

接下来关于RCU一个有趣的问题是：何时才能释放老指针。我见过很多书中对此的回答是：当系统中所有处理器上都发生了一次进程切换。这种程式化的回答常常让刚接触RCU机制的读者感到一头雾水，为什么非要等所有处理器上都发生一次进程切换才可以调用回调函数释放老指针呢？这其实是RCU的设计规则决定的：所有对老指针的引用只可能发生在rcu_read_lock与rcu_read_unlock所包括的临界区中，而在这个临界区中不可能发生进程切换，而一旦出了该临界区就不应该再有任何形式的对老指针p的引用。很明显，这个规则要求读取者在临界区中不能发生进程切换，因为一旦有进程切换，释放老指针的回调函数就有可能被调用，从而导致老指针被释放掉，当被切换掉的进程被重新调度运行时它就有可能引用到一个被释放掉的内存空间。

现在我们看到为什么rcu_read_lock只需要关闭内核可抢占性就可以了，因为它使得即便在临界区中发生了中断，当前进程也不可能被切换除去。内核开发者，确切地说，RCU的设计者所能做的只能到这个程度。接下来就是使用者的责任了，如果在rcu的临界区中调用了一个函数，该函数可能睡眠，那么RCU的设计规则就遭到了破坏，系统将进入一种不稳定的状态。

这再次说明，如果想使用一个东西，一定要搞清楚其内在的机制，象上面刚提到的那个例子，即便现在程序不出现问题，但是系统中留下的隐患如同一个定时炸弹，随时可能被引爆，尤其是过了很长时间问题才突然爆发出来。绝大多数情形下，找到问题所花费的时间可能要远远大于静下心来仔细搞懂RCU的原理要多得多。

RCU中的读取者相对rwlock的读取者而言，自由度更高。因为RCU的读取者在访问一个共享资源时，不需要考虑写入者的感受，这不同于rwlock的写入者，rwlock reader在读取共享资源时需要确保没有写入者在操作该资源。两者之间的差异化源自RCU对共享资源在读取者与写入者之间进行了分离，而rwlock的读取者和写入者则至始至终只使用共享资源的一份拷贝。这也意味着RCU中的写入者要承担更多的责任，而且对同一共享资源进行更新的多个写入者之间必须引入某种互斥机制，所以RCU属于一种"免锁机制"的说法仅限于读取者与写入者之间。所以我们看到：RCU机制应该用在有大量的读取操作，而更新操作相对较少的情形下。此时RCU可以大大提升系统系能，因为RCU的读取操作相对其他一些有锁机制而言，在锁上的开销几乎没有。

实际使用中，共享的资源常常以链表的形式存在，内核为RCU模式下的链表操作实现了几个接口函数，读取者和使用者应该使用这些内核函数，比如 list_add_tail_rcu, list_add_rcu，hlist_replace_rcu等等，具体的使用可以参考某些内核编程或者设备驱动程序方面的资料。

在释放老指针方面，Linux内核提供两种方法供使用者使用，一个是调用call_rcu,另一个是调用synchronize_rcu。前者是一种异步方式，call_rcu会将释放老指针的回调函数放入一个结点中，然后将该结点加入到当前正在运行call_rcu的处理器的本地链表中，在时钟中断的 softirq部分（RCU_SOFTIRQ）， rcu软中断处理函数rcu_process_callbacks会检查当前处理器是否经历了一个休眠期(quiescent，此处涉及内核进程调度等方面的内容)，rcu的内核代码实现在确定系统中所有的处理器都经历过了一个休眠期之后(意味着所有处理器上都发生了一次进程切换，因此老指针此时可以被安全释放掉了)，将调用call_rcu提供的回调函数。
synchronize_rcu的实现则利用了等待队列，在它的实现过程中也会向call_rcu那样向当前处理器的本地链表中加入一个结点，与 call_rcu不同之处在于该结点中的回调函数是wakeme_after_rcu，然后synchronize_rcu将在一个等待队列中睡眠，直到系统中所有处理器都发生了一次进程切换，因而wakeme_after_rcu被rcu_process_callbacks所调用以唤醒睡眠的 synchronize_rcu，被唤醒之后，synchronize_rcu知道它现在可以释放老指针了。

所以我们看到，call_rcu返回后其注册的回调函数可能还没被调用，因而也就意味着老指针还未被释放，而synchronize_rcu返回后老指针肯定被释放了。所以，是调用call_rcu还是synchronize_rcu，要视特定需求与当前上下文而定，比如中断处理的上下文肯定不能使用 synchronize_rcu函数了。

宽限期

通过例子，方便理解这个内容。以下例子修改于Paul的文章。

[cpp]view plaincopy 
    
 struct foo {  
            int a;  
            char b;  
            long c;  
  };  
   
 DEFINE_SPINLOCK(foo_mutex);  
   
 struct foo *gbl_foo;  
   
 void foo_read (void)  
 {  
      foo *fp = gbl_foo;  
      if ( fp != NULL )  
             dosomething(fp->a, fp->b , fp->c );  
 }  
   
 void foo_update( foo* new_fp )  
 {  
      spin_lock(&foo_mutex);  
      foo *old_fp = gbl_foo;  
      gbl_foo = new_fp;  
      spin_unlock(&foo_mutex);  
      kfee(old_fp);  
 }  

如上的程序，是针对于全局变量gbl_foo的操作。假设以下场景。有两个线程同时运行 foo_ read和foo_update的时候，当foo_ read执行完赋值操作后，线程发生切换；此时另一个线程开始执行foo_update并执行完成。当foo_ read运行的进程切换回来后，运行dosomething 的时候，fp已经被删除，这将对系统造成危害。为了防止此类事件的发生，RCU里增加了一个新的概念叫宽限期（Grace period）。如下图所示：

图中每行代表一个线程，最下面的一行是删除线程，当它执行完删除操作后，线程进入了宽限期。宽限期的意义是，在一个删除动作发生后，它必须等待所有在宽限期开始前已经开始的读线程结束，才可以进行销毁操作。这样做的原因是这些线程有可能读到了要删除的元素。图中的宽限期必须等待1和2结束；而读线程5在宽限期开始前已经结束，不需要考虑；而3,4,6也不需要考虑，因为在宽限期结束后开始后的线程不可能读到已删除的元素。为此RCU机制提供了相应的API来实现这个功能。

[cpp]view plaincopy 
    
 void foo_read(void)  
 {  
     rcu_read_lock();  
     foo *fp = gbl_foo;  
     if ( fp != NULL )  
             dosomething(fp->a,fp->b,fp->c);  
     rcu_read_unlock();  
 }  
   
 void foo_update( foo* new_fp )  
 {  
     spin_lock(&foo_mutex);  
     foo *old_fp = gbl_foo;  
     gbl_foo = new_fp;  
     spin_unlock(&foo_mutex);  
     synchronize_rcu();  
     kfee(old_fp);  
 }  

其中foo_read中增加了rcu_read_lock和rcu_read_unlock，这两个函数用来标记一个RCU读过程的开始和结束。其实作用就是帮助检测宽限期是否结束。foo_update增加了一个函数synchronize_rcu()，调用该函数意味着一个宽限期的开始，而直到宽限期结束，该函数才会返回。我们再对比着图看一看，线程1和2，在synchronize_rcu之前可能得到了旧的gbl_foo，也就是foo_update中的old_fp，如果不等它们运行结束，就调用kfee(old_fp)，极有可能造成系统崩溃。而3,4,6在synchronize_rcu之后运行，此时它们已经不可能得到old_fp，此次的kfee将不对它们产生影响。

宽限期是RCU实现中最复杂的部分,原因是在提高读数据性能的同时，删除数据的性能也不能太差。

订阅——发布机制

当前使用的编译器大多会对代码做一定程度的优化，CPU也会对执行指令做一些优化调整,目的是提高代码的执行效率，但这样的优化，有时候会带来不期望的结果。如例：

[cpp]view plaincopy 
    
 void foo_update( foo* new_fp )  
 {  
     spin_lock(&foo_mutex);  
     foo *old_fp = gbl_foo;  
       
     new_fp->a = 1;  
     new_fp->b = ‘b’;  
     new_fp->c = 100;  
       
     gbl_foo = new_fp;  
     spin_unlock(&foo_mutex);  
     synchronize_rcu();  
     kfee(old_fp);  
 }  

[cpp]view plaincopy 
    
 void foo_update( foo* new_fp )  
 {  
     spin_lock(&foo_mutex);  
     foo *old_fp = gbl_foo;  
       
     new_fp->a = 1;  
     new_fp->b = ‘b’;  
     new_fp->c = 100;  
       
     gbl_foo = new_fp;  
     spin_unlock(&foo_mutex);  
     synchronize_rcu();  
     kfee(old_fp);  
 }  

这段代码中，我们期望的是6，7，8行的代码在第10行代码之前执行。但优化后的代码并不对执行顺序做出保证。在这种情形下，一个读线程很可能读到 new_fp，但new_fp的成员赋值还没执行完成。当读线程执行dosomething(fp->a, fp->b , fp->c ) 的时候，就有不确定的参数传入到dosomething，极有可能造成不期望的结果，甚至程序崩溃。可以通过优化屏障来解决该问题，RCU机制对优化屏障做了包装，提供了专用的API来解决该问题。这时候，第十行不再是直接的指针赋值，而应该改为 :

rcu_assign_pointer(gbl_foo,new_fp);

rcu_assign_pointer的实现比较简单，如下：

[cpp]view plaincopy 
    
 #define rcu_assign_pointer(p, v) \   
          __rcu_assign_pointer((p), (v), __rcu)  
   
 #define __rcu_assign_pointer(p, v, space) \   
          do { \  
                  smp_wmb(); \  
                  (p) = (typeof(*v) __force space *)(v); \  
          } while (0)  

[cpp]view plaincopy 
    
 #define rcu_assign_pointer(p, v) \  
          __rcu_assign_pointer((p), (v), __rcu)  
   
 #define __rcu_assign_pointer(p, v, space) \  
          do { \  
                  smp_wmb(); \  
                  (p) = (typeof(*v) __force space *)(v); \  
          } while (0)  

我们可以看到它的实现只是在赋值之前加了优化屏障 smp_wmb来确保代码的执行顺序。另外就是宏中用到的__rcu，只是作为编译过程的检测条件来使用的。

在DEC Alpha CPU机器上还有一种更强悍的优化，如下所示：

[cpp]view plaincopy 
    
 void foo_read(void)  
 {         
     rcu_read_lock();  
     foo *fp = gbl_foo;  
     if ( fp != NULL )  
         dosomething(fp->a, fp->b ,fp->c);  
     rcu_read_unlock();  
 }  

[cpp]view plaincopy 
    
 void foo_read(void)  
 {         
     rcu_read_lock();  
     foo *fp = gbl_foo;  
     if ( fp != NULL )  
         dosomething(fp->a, fp->b ,fp->c);  
     rcu_read_unlock();  
 }  

第六行的 fp->a,fp->b,fp->c会在第3行还没执行的时候就预先判断运行，当他和foo_update同时运行的时候，可能导致传入dosomething的一部分属于旧的gbl_foo，而另外的属于新的。这样导致运行结果的错误。为了避免该类问题，RCU还是提供了宏来解决该问题：

[cpp]view plaincopy 
    
 #define rcu_dereference(p) rcu_dereference_check(p, 0)   
   
   
 #define rcu_dereference_check(p, c) \   
          __rcu_dereference_check((p), rcu_read_lock_held() || (c), __rcu)  
   
 #define __rcu_dereference_check(p, c, space) \   
          ({ \  
                  typeof(*p) *_________p1 = (typeof(*p)*__force )ACCESS_ONCE(p); \  
                  rcu_lockdep_assert(c, "suspicious rcu_dereference_check()" \  
                                        " usage"); \  
                  rcu_dereference_sparse(p, space); \  
                  smp_read_barrier_depends(); \  
                  ((typeof(*p) __force __kernel *)(_________p1)); \  
          })  
   
 static inline int rcu_read_lock_held(void)  
 {  
          if (!debug_lockdep_rcu_enabled())  
                  return 1;  
          if (rcu_is_cpu_idle())  
                  return 0;  
          if (!rcu_lockdep_current_cpu_online())  
                  return 0;  
          return lock_is_held(&rcu_lock_map);  
 }  

[cpp]view plaincopy 
    
 #define rcu_dereference(p) rcu_dereference_check(p, 0)  
   
   
 #define rcu_dereference_check(p, c) \  
          __rcu_dereference_check((p), rcu_read_lock_held() || (c), __rcu)  
   
 #define __rcu_dereference_check(p, c, space) \  
          ({ \  
                  typeof(*p) *_________p1 = (typeof(*p)*__force )ACCESS_ONCE(p); \  
                  rcu_lockdep_assert(c, "suspicious rcu_dereference_check()" \  
                                        " usage"); \  
                  rcu_dereference_sparse(p, space); \  
                  smp_read_barrier_depends(); \  
                  ((typeof(*p) __force __kernel *)(_________p1)); \  
          })  
   
 static inline int rcu_read_lock_held(void)  
 {  
          if (!debug_lockdep_rcu_enabled())  
                  return 1;  
          if (rcu_is_cpu_idle())  
                  return 0;  
          if (!rcu_lockdep_current_cpu_online())  
                  return 0;  
          return lock_is_held(&rcu_lock_map);  
 }  

这段代码中加入了调试信息，去除调试信息，可以是以下的形式（其实这也是旧版本中的代码）：

[cpp]view plaincopy 
    
 #define rcu_dereference(p)     ({ \   
                     typeof(p) _________p1 = p; \  
                     smp_read_barrier_depends(); \  
                     (_________p1); \  
                     })  

[cpp]view plaincopy 
    
 #define rcu_dereference(p)     ({ \  
                     typeof(p) _________p1 = p; \  
                     smp_read_barrier_depends(); \  
                     (_________p1); \  
                     })  

在赋值后加入优化屏障smp_read_barrier_depends()。

我们之前的第四行代码改为 foo *fp = rcu_dereference(gbl_foo);，就可以防止上述问题。

数据读取的完整性

还是通过例子来说明这个问题：

如图我们在原list中加入一个节点new到A之前，所要做的第一步是将new的指针指向A节点，第二步才是将Head的指针指向new。这样做的目的是当插入操作完成第一步的时候，对于链表的读取并不产生影响，而执行完第二步的时候，读线程如果读到new节点，也可以继续遍历链表。如果把这个过程反过来，第一步head指向new，而这时一个线程读到new，由于new的指针指向的是Null，这样将导致读线程无法读取到A，B等后续节点。从以上过程中，可以看出RCU并不保证读线程读取到new节点。如果该节点对程序产生影响，那么就需要外部调用做相应的调整。如在文件系统中，通过RCU定位后，如果查找不到相应节点，就会进行其它形式的查找，相关内容等分析到文件系统的时候再进行叙述。

我们再看一下删除一个节点的例子：

如图我们希望删除B，这时候要做的就是将A的指针指向C，保持B的指针，然后删除程序将进入宽限期检测。由于B的内容并没有变更，读到B的线程仍然可以继续读取B的后续节点。B不能立即销毁，它必须等待宽限期结束后，才能进行相应销毁操作。由于A的节点已经指向了C，当宽限期开始之后所有的后续读操作通过A找到的是C，而B已经隐藏了，后续的读线程都不会读到它。这样就确保宽限期过后，删除B并不对系统造成影响。