分区
分区通常与复制结合使用,即每个分区在多个节点都存在副本。
要解决的问题:将数据和查询负载均匀分布在所有节点
关键字:会导致热点问题;
时间戳:会导致某时间段负载过高问题;
如何分区
一般基于 K-V数据模型尝尝基于哈希算法(redis);
二级索引分区,适用于关系型数据库、文档型数据库(MongoDB);
关于对关键字(热点)数据存储导致的负载倾斜的问题
举例:对名人热点等关键字访问,会出现同时对相同关键字的操作。
一般解决方案是在应用层减轻倾斜程度,如对关键字加一个随机数,使其分布到100个不同的分区上,但随之而来的是之后的读取都需要此额外工作,因此只对少量热点关键字加随机数才有意义,因此还需额外标记哪些元数据进行了处理。
哈希函数:好的哈希函数可处理数据倾斜并使其均匀分布。 如取时间戳的MD5哈希值得头2个字节,缺点是哈希丧失区间查询特性。
关于哈希算法和一致性哈希算法使用场景的问题
哈希算法:也就是取模算法(对机器数量取模),如一个集群有3台实例,能快速定位某个key存在那个实例上,缺陷是,当扩容时,需要将历史数据重新哈希,此间隔中缓存失效,会导致穿透雪崩。
一致性哈希算法(也是取模,但是对2^32取模):一致性Hash算法对于节点的增减都只需重定位环空间中的一小部分数据,不至于将所有压力都在同一时间集中到后端服务器上,具有较好的容错性和可扩展性。