Memcache 简解

最新推荐文章于 2020-03-29 18:46:53 发布

脚步6978

最新推荐文章于 2020-03-29 18:46:53 发布

阅读量513

点赞数

分类专栏：数据库文章标签： memcache 缓存 nosql

本文链接：https://blog.csdn.net/m0_38027358/article/details/76791293

版权

数据库专栏收录该内容

17 篇文章 0 订阅

订阅专栏

MemCache是一种基于 C/S 架构高性能、分布式的内存对象缓存系统，用于动态Web应用以减轻数据库的负载。通过在内存中缓存数据和对象来减少读取数据库的次数，从而提高了网站访问的速度，尤其对于一些大型的、需要频繁访问数据库的网站访问速度提升效果显著;

memcache 分服务器端和客户端，可以配置多个服务器端和客户端;MemCache是项目的名称,Memcached是 memcache 缓存系统的服务器端,可以执行文件的名称,它以后台守护进程运行于服务器上.

memcached是一种无阻塞的socket通信方式服务，基于libevent库，由于无阻塞通信，对内存读写速度非常之快。

MemCache的数据存放在服务器内存中同时意味着只要MemCache重启了，数据就会消失
Memcached是多线程，非阻塞IO复用的网络模型，分为监听主线程和worker子线程，多线程模型可以发挥多核作用

Memcached提供了cas命令，可以保证多个并发访问操作同一份数据的一致性问题。

Memcached基本只支持简单的key-value存储，不支持枚举，不支持持久化和复制等功能

通常在Memcached 里，你需要将数据拿到客户端来进行类似的修改在set回去，在大大增加了网络IO的次数和数据体积

我们可以看出Memcached 的内存管理机制效率高，而且不会造成内存碎片，但最大的缺点就是会导致空间的浪费

memcached是一个高性能分布式的内存对象缓存系统，可以部署到多台服务器上，通常被用于降低数据库加载压力以提高动态web应用的响应速度

Memcache通过在内存里维护一个统一的巨大的hash表，它能够用来存储各种格式的数据，包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调用到内存中，然后从内存中读取，从而大大提高读取速度。

通过缓存数据库查询结果，减少数据库访问次数，以提高动态Web应用的速度、提高可扩展性。

Memcached采用客户端-服务器的架构，客户端和服务器端的通讯使用自定义的协议标准，Memcached 的守护进程（daemon ）是用C写的，但是客户端Library可以用任何语言来编写，并通过memcached协议与守护进程通信;

从用户的角度来说，服务器维护了一个键-值关系的数据表，服务器之间相互独立，互相之间不共享数据也不做任何通讯操作。客户端需要知道所有的服务器，并自行负责管理数据在各个服务器间的分配。

在服务器端，内部的数据存储，使用基于Slab的内存管理方式，有利于减少内存碎片和频繁分配销毁内存所带来的开销。各个Slab按需动态分配一个page的内存（和4Kpage的概念不同，这里默认page为1M），page内部按照不同slab class的尺寸再划分为内存chunk供服务器存储KV键值对使用

过期策略–memcache在set时就指定

Memecache删除机制：采用惰性删除
原理: 当某个单元被请求时,维护一个计数器,通过计数器来判断最近谁最少被使用。
注: 即使某个key 是设置的永久有效期,也一样会被踢出来!

slab是一种内存分配机制，将分配的内存分成各种尺寸的chunk块，把尺寸相同的块分成chunk集合，chunk为固定大小，会造成空间资源的浪费

-d选项是启动一个守护进程，
-m是分配给Memcache使用的内存数量，单位是MB
-u是运行Memcache的用户
-l是监听的服务器IP地址，
-p是设置Memcache监听的端口
-c选项是最大运行的并发连接数，默认是1024
-P是设置保存Memcache的pid文件

MemCache的工作流程如下：

先检查客户端的请求数据是否在memcached中，如有，直接把请求数据返回，不再对数据库进行任何操作；

如果请求的数据不在memcached中，就去查数据库，把从数据库中获取的数据返回给客户端，同时把数据缓存一份到memcached中（memcached客户端不负责，需要程序明确实现）；每次更新数据库的同时更新memcached中的数据，保证一致性；

当分配给memcached内存空间用完之后，会使用LRU（Least Recently Used，最近最少使用）策略加上到期失效策略，失效数据首先被替换，然后再替换掉最近未使用的数据;

在 Memcached中可以保存的item数据量是没有限制的，只要内存足够。可以分多个端口开启多个Memcached进程 ,支持服务器连接池，多服务器管理切换方便简洁;

理一下MemCache一次写缓存的流程：

1、应用程序输入需要写缓存的数据

2、API将Key输入路由算法模块，路由算法根据Key和MemCache集群服务器列表得到一台服务器编号

3、由服务器编号得到MemCache及其的ip地址和端口号

4、API调用通信模块和指定编号的服务器通信，将数据写入该服务器，完成一次分布式缓存的写操作

读缓存和写缓存一样，只要使用相同的路由算法和服务器列表，只要应用程序查询的是相同的Key，MemCache客户端总是访问相同的客户端去读取数据，只要服务器中还缓存着该数据，就能保证缓存命中。

这种MemCache集群的方式也是从分区容错性的方面考虑的，假如Node2宕机了，那么Node2上面存储的数据都不可用了，此时由于集群中Node0和Node1还存在，下一次请求Node2中存储的Key值的时候，肯定是没有命中的，这时先从数据库中拿到要缓存的数据，然后路由算法模块根据Key值在Node0和Node1中选取一个节点，把对应的数据放进去，这样下一次就又可以走缓存了，这种集群的做法很好，但是缺点是成本比较大。

对服务器集群的管理，路由算法至关重要，就和负载均衡算法一样，路由算法决定着究竟该访问集群中的哪台服务器；

1、余数Hash

随机性比较强，保证缓存数据在整个MemCache服务器集群中有比较均衡的分布。

考虑服务器集群的伸缩性，当分布式缓存集群需要扩容的时候，就难办了，需要更改服务器列表，仍然使用余数Hash的路由算法，在扩容的时候会造成大量的数据无法正确命中（其实不仅仅是无法命中，那些大量的无法命中的数据还在原缓存中在被移除前占据着内存）。这个结果显然是无法接受的，在网站业务中，大部分的业务数据度操作请求上事实上是通过缓存获取的，只有少量读操作会访问数据库，因此数据库的负载能力是以有缓存为前提而设计的。当大部分被缓存了的数据因为服务器扩容而不能正确读取时，这些数据访问的压力就落在了数据库的身上，这将大大超过数据库的负载能力，严重的可能会导致数据库宕机。

这个问题有解决方案，解决步骤为：

（1）在网站访问量低谷，通常是深夜，技术团队加班，扩容、重启服务器

（2）通过模拟请求的方式逐渐预热缓存，使缓存服务器中的数据重新分布

2、一致性Hash算法通常使用二叉查找树实现

这里写图片描述
具体算法过程为：先构造一个长度为232的整数环（这个环被称为一致性Hash环），根据节点名称的Hash值（其分布为[0, 232-1]）将缓存服务器节点放置在这个Hash环上，然后根据需要缓存的数据的Key值计算得到其Hash值（其分布也为[0, 232-1]），然后在Hash环上顺时针查找距离这个Key值的Hash值最近的服务器节点，完成Key到服务器的映射查找。

就如同图上所示，三个Node点分别位于Hash环上的三个位置，然后Key值根据其HashCode，在Hash环上有一个固定位置，位置固定下之后，Key就会顺时针去寻找离它最近的一个Node，把数据存储在这个Node的MemCache服务器中。使用Hash环如果加了一个节点会怎么样，看一下：
这里写图片描述
看到我加了一个Node4节点，只影响到了一个Key值的数据，本来这个Key值应该是在Node1服务器上的，现在要去Node4了。采用一致性Hash算法，的确也会影响到整个集群，但是影响的只是加粗的那一段而已，相比余数Hash算法影响了远超一半的影响率，这种影响要小得多。更重要的是，集群中缓存服务器节点越多，增加节点带来的影响越小，很好理解。换句话说，随着集群规模的增大，继续命中原有缓存数据的概率会越来越大，虽然仍然有小部分数据缓存在服务器中不能被读到，但是这个比例足够小，即使访问数据库，也不会对数据库造成致命的负载压力。

MemCache采用的内存分配方式是固定空间分配

Memcached使用预分配的内存池的方式，使用slab和大小不同的chunk来管理内存，Item根据大小选择合适的chunk存储，内存池的方式可以省去申请/释放内存的开销，并且能减小内存碎片产生，但这种方式也会带来一定程度上的空间浪费，并且在内存仍然有很大空间时，新的数据也可能会被剔除
这里写图片描述
1、MemCache将内存空间分为一组slab

2、每个slab下又有若干个page，每个page默认是1M，如果一个slab占用100M内存的话，那么这个slab下应该有100个page

3、每个page里面包含一组chunk，chunk是真正存放数据的地方，同一个slab里面的chunk的大小是固定的

4、有相同大小chunk的slab被组织在一起，称为slab_class

Slabs划分数据空间:
Memcached 并不是将所有大小的数据都放在一起的，而是预先将数据空间划分为一系列slabs，每个slab只负责一定范围内的数据存储，每个slab只存储大于其上一个slab的size并小于或者等于自己最大size的数据。例如：slab 3只存储大小介于137 到 224 bytes的数据。如果一个数据大小为230byte将被分配到slab 4中，每个slab负责的空间其实是不等的，memcached默认情况下下一个slab的最大值为前一个的1.25倍，这个可以通过修改-f参数来修改增长比例。

Chunk才是存放缓存数据的单位:
Chunk 是一系列固定的内存空间，这个大小就是管理它的slab的最大存放大小。例如：slab 1的所有chunk都是104byte，而slab 4的所有chunk都是280byte。chunk是memcached实际存放缓存数据的地方，因为chunk的大小固定为slab能够存放的最大值，所以所有分配给当前slab的数据都可以被chunk存下。如果时间的数据大小小于chunk的大小，空余的空间将会被闲置，这个是为了防止内存碎片而设计的。例如chunk size是224byte，而存储的数据只有200byte，剩下的24byte将被闲置。
Slab的内存分配:
Memcached在启动时通过-m指定最大使用内存，但是这个不会一启动就占用，是随着需要逐步分配给各slab的。如果一个新的缓存数据要被存放，memcached首先选择一个合适的slab，然后查看该slab是否还有空闲的chunk，如果有则直接存放进去；如果没有则要进行申请。slab申请内存时以page为单位，所以在放入第一个数据，无论大小为多少，都会有1M大小的page被分配给该slab。申请到 page后，slab会将这个page的内存按chunk的大小进行切分，这样就变成了一个chunk的数组，在从这个chunk数组中选择一个用于存储数据。如，slab 1和slab 2都分配了一个page，并按各自的大小切分成chunk数组。

内存碎片

内存碎片】是在不断的申请和释放内存时候（如C语言中malloc、free)，在内存中往往会出现一些很小的内存片段，无法再使用，这种空闲的内存被称为内存碎片。

memcache 的过期数据惰性删除当某个值过期后,并没有从内存删除, 因此,stats 统计时, curr_item 有其信息。当某个新值去占用他的位置时,当成空chunk 来占用，当get值时,判断是否过期, 如果过期,返回空,并且清空, curr_item 就减少了。即这个过期,只是让用户看不到这个数据而已,并没有在过期的瞬间立即从内存删除。这个称为惰性失效。好处是节省了cpu 时间和检测的成本。