memcached源码分析-----item过期失效处理以及LRU爬虫

最新推荐文章于 2020-06-28 09:19:57 发布

luotuo44

最新推荐文章于 2020-06-28 09:19:57 发布

阅读量5.7k

点赞数 2

分类专栏： memcached源码分析 memcached源码分析文章标签： memcached LRU item

本文链接：https://blog.csdn.net/luotuo44/article/details/42963793

版权

本文详细分析了memcached中item的过期失效处理，包括超时失效和flush_all命令的处理。重点探讨了LRU爬虫的工作原理，包括LRU爬虫线程的启动、清除失效item的策略，以及如何通过伪item实现LRU队列的随机访问。同时指出，memcached的LRU策略并非真正意义上的LRU淘汰算法。

摘要由CSDN通过智能技术生成

转载请注明出处：http://blog.csdn.net/luotuo44/article/details/42963793

温馨提示：本文用到了一些可以在启动memcached设置的全局变量。关于这些全局变量的含义可以参考《memcached启动参数详解》。对于这些全局变量，处理方式就像《如何阅读memcached源代码》所说的那样直接取其默认值。另外，本文会提及LRU队列，关于LRU队列的介绍可以参考《LRU队列与item结构体》。

过期失效处理：

一个item在两种情况下会过期失效：1.item的exptime时间戳到了。2.用户使用flush_all命令将全部item变成过期失效的。读者可能会说touch命令也可以使得一个item过期失效，其实这也属于前面说的第一种情况。

超时失效：

对于第一种过期失效，memcached的使用懒惰处理：不主动检测一个item是否过期失效。当worker线程访问这个item时，才检测这个item的exptime时间戳是否到了。比较简单，这里就先不贴代码，后面会贴。

flush_all命令：

第二种过期失效是用户flush_all命令设置的。flush_all会将所有item都变成过期失效。所有item是指哪些item？因为多个客户端会不断地往memcached插入item，所以必须要明白所有item是指哪些。是以worker线程接收到这个命令那一刻为界?还是以删除那一刻为界？

当worker线程接收到flush_all命令后，会用全局变量settings的oldest_live成员存储接收到这个命令那一刻的时间(准确地说，是worker线程解析得知这是一个flush_all命令那一刻再减一)，代码为settings.oldest_live =current_time - 1;然后调用item_flush_expired函数锁上cache_lock，然后调用do_item_flush_expired函数完成工作。

void do_item_flush_expired(void) {
    int i;
    item *iter, *next;
    if (settings.oldest_live == 0)
        return;
    for (i = 0; i < LARGEST_ID; i++) {
        for (iter = heads[i]; iter != NULL; iter = next) {
            if (iter->time != 0 && iter->time >= settings.oldest_live) {
                next = iter->next;
                if ((iter->it_flags & ITEM_SLABBED) == 0) {
                    do_item_unlink_nolock(iter, hash(ITEM_key(iter), iter->nkey));
                }
            } else {
                /* We've hit the first old item. Continue to the next queue. */
                break;
            }
        }
    }
}

do_item_flush_expired函数内部会遍历所有LRU队列，检测每一个item的time成员。检测time成员是合理的。如果time成员小于settings.oldest_live就说明该item在worker线程接收到flush_all命令的时候就已经存在了(time成员表示该item的最后一次访问时间)。那么就该删除这个item。

这样看来memcached是以worker线程接收到flush_all命令那一刻为界的。等等等等，看清楚一点！！在do_item_flush_expired函数里面，不是当item的time成员小于settings.oldest_live时删除这个item，而是大于的时候才删除。从time成员变量的意义来说，大于代表什么啊？有大于的吗？奇怪！@#@&￥

实际上memcached是以删除那一刻为界的。那settings.oldest_live为什么要存储worker线程接收到flush_all命令的时间戳？为什么又要判断iter->time是否大于settings.oldest_live呢？

按照一般的做法，在do_item_flush_expired函数中直接把哈希表和LRU上的所有item统统删除即可。这样确实是可以达到目标。但在本worker线程处理期间，其他worker线程完全不能工作(因为do_item_flush_expired的调用者已经锁上了cache_lock)。而LRU队列里面可能有大量的数据，这个过期处理过程可能会很长。其他worker线程完全不能工作是难于接受的。

memcached的作者肯定也意识到这个问题，所以他就写了一个奇怪的do_item_flush_expired函数，用来加速。do_item_flush_expired只会删除少量特殊的item。如何特殊法，在后面代码注释中会解释。对于其他大量的item，memcached采用懒惰方式处理。只有当worker线程试图访问该item，才检测item是否已经被设置为过期的了。事实上，无需对item进行任何设置就能检测该item是否为过期的，通过settings.oldest_live变量即可。这种懒惰和前面第一种item过期失效的处理是一样的。

现在再看一下do_item_flush_expired函数，看一下特殊的item。

void do_item_flush_expired(void) {
    int i;
    item *iter, *next;
    if (settings.oldest_live == 0)
        return;
    for (i = 0; i < LARGEST_ID; i++) {
        for (iter = heads[i]; iter != NULL; iter = next) {
			//iter->time == 0的是lru爬虫item，直接忽略
			//一般情况下iter->time是小于settings.oldest_live的。但在这种情况下
			//就有可能出现iter->time >= settings.oldest_live :  worker1接收到
			//flush_all命令，并给settings.oldest_live赋值为current_time-1。
			//worker1线程还没来得及调用item_flush_expired函数，就被worker2
			//抢占了cpu，然后worker2往lru队列插入了一个item。这个item的time
			//成员就会满足iter->time >= settings.oldest_live
            if (iter->time != 0 && iter->time >= settings.oldest_live) {
                next = iter->next;
                if ((iter->it_flags & ITEM_SLABBED) == 0) {
					//虽然调用的是nolock,但本函数的调用者item_flush_expired
					//已经锁上了cache_lock，才调用本函数的
                    do_item_unlink_nolock(iter, hash(ITEM_key(iter), iter->nkey));
                }
            } else {
            	//因为lru队列里面的item是根据time降序排序的，所以当存在一个item的time成员
            	//小于settings.oldest_live,剩下的item都不需要再比较了
                break;
            }
        }
    }
}