分布式缓存Hazelcast详解及原理探究_hazelcast底层原理

最新推荐文章于 2024-08-03 13:11:18 发布

解佳思提

最新推荐文章于 2024-08-03 13:11:18 发布

阅读量981

点赞数 29

文章标签：分布式缓存

原文链接：https://blog.csdn.net/syc000666/article/details/105729427

版权

我们知道在JVM中，有自己特定的GC机制，无论数据是在堆中还是栈中，只要发现无效引用的数据块，就有可能被回收。而Hazelcast的分布式数据都存放在JVM的内存中，频繁的读写数据会导致大量的GC开销。使用商业版的Hazelcast会拥有高密度存储的特性，大大降低JVM的内存开销，从而降低GC开销。

3. Hazelcast的特性

3.1 自治集群(无中心化)

Hazelcast 没有任何中心节点(每个节点都是可以运行在任意服务器的独立JVM)，在运行的过程中，它自己选定集群中的某个节点作为中心点来管理所有的节点。

3.2 数据按应用分布式存储

Hazelcast 的数据是分布式存储的。它会尽量将数据存储在需要使用该项数据的节点上，以实现数据去中心化的目的。

在传统的数据存储模型中(MySql、MongDB、Redis等)，数据都是独立于应用单独存放的，当需要提升数据库的性能时，需要不断加固单个数据库应用的性能。

即使现在大量的数据库已经可以支持集群模式或读写分离，但是基本思路都是某几个库支持写入数据，其他的库不断的拷贝更新数据副本。这样做的坏处一是会产生大量脏读的问题，二是会消耗大量的资源来传递数据——从数据源频繁读写数据会耗费额外资源，当数据量增长或创建的主从服务越来越多时，这个消耗呈指数级增长。

使用 Hazelcast 可以有效的解决数据中心化问题，它将数据分散的存储在每个节点中，节点越多越分散。每个节点都有各自的应用服务，而Hazelcast集群会根据每个应用的数据使用情况分散存储这些数据，在应用过程中数据会尽量“靠近”应用存放。这些在集群中的数据共享整个集群的存储空间和计算资源。

3.3 抗单点故障

集群中的节点是无中心化的，每个节点都有可能随时退出或随时进入。因此，在集群中存储的数据都会有一个备份(可以配置备份的个数，也可以关闭数据备份)。这样的方式有点类似于 hadoop，某项数据存放在一个节点时，在其他节点必定有至少一个备份存在。当某个节点退出时，节点上存放的数据会由备份数据替代，而集群会重新创建新的备份数据。

3.4 简单易用

Hazelcast 的所有功能只需引用一个jar包，除此之外，它不需要依赖任何第三方包。因此可以非常便捷高效的将其嵌入到各种应用服务器中，而不必担心带来额外的问题(jar包冲突、类型冲突等)。它仅仅提供一系列分布式功能，而不需要绑定任何框架来使用，因此适用于任何场景。

3.5 其他特性

Hazelcast 还支持服务器/客户端模型，支持脚本管理、能够和 Docker 快速整合等。

4. Hazelcast功能

提供了分布式id生成器(IdGenerator)；
提供了分布式事件驱动（Distributed Events）；
提供了分布式计算(Distributed Computing)；
提供了分布式查询（Distributed Query）。
提供java.util.{Queue, Set, List, Map}分布式实现。
提供java.util.concurrency.locks.Lock分布式实现。
提供java.util.concurrent.ExecutorService分布式实现。
提供用于一对多关系的分布式MultiMap。
提供用于发布/订阅的分布式Topic（主题）。
通过JCA与J2EE容器集成和事务支持。
提供用于安全集群的Socket层加密。
支持同步和异步持久化。
为Hibernate提供二级缓存Provider 。
通过JMX监控和管理集群。
支持动态HTTP Session集群。
利用备份实现动态分割。
支持动态故障恢复。

总的来说在独立JVM中经常使用的数据结果或模型，Hazelcast 都提供了分布式集群的实现。

5. Hazelcast原理

Hazelcast 提供了 Map、Queue、MultiMap、Set、List、Semaphore、Atomic 等常用接口的分布式实现。

以Map接口为例，当我们通过Hazelcast创建一个Map实例后，我们在节点A调用 Map::put(“A”,“A_DATA”) 方法添加数据，然后可以在节点B使用 Map::get(“A”) 获取到值为"A_DATA" 的数据。

6. Hazelcast存储数据的实现过程

6.1 Hazelcast分区

由于Hazelcast 服务之间是端对端的，没有主从之分，集群中所有的节点都存储等量的数据以及进行等量的计算。

Hazelcast 默认情况下把数据存储在 271 个区上，这个值可以通过系统属性 hazelcast.partition.count来配置。

6.2 Hazelcast分区存储原理

对于一个给定的键，在经过序列化、哈希并对分区总数取模之后能得到此键对应的分区号，所有的分区等量的分布与集群中所有的节点中，每个分区对应的备份也同样分布在集群中。

也就是说 Hazelcast 会使用哈希算法对数据进行分区，比如对于一个给定的map中的键，或者topic和list中的对象名称，分区存储的过程如下:

先序列化此键或对象名称，得到一个byte数组；
然后对上面得到的byte数组进行哈希运算；
再进行取模后的值即为分区号；
最后每个节点维护一个分区表，存储着分区号与节点之间的对应关系，这样每个节点都知道如何获取数据。

6.3 Hazelcast集群实现原理

Hazelcast通过分片来存储和管理所有进入集群的数据，采用分片的方案目标是保证数据可以快速被读写、通过冗余保证数据不会因节点退出而丢失、节点可线性扩展存储能力。下面将从理论上说明Hazelcast是如何进行分片管理的。

6.3.1 分片

Hazelcast的每个数据分片（shards)被称为一个分区(Partitions)。分区是一些内存段，根据系统内存容量的不同，每个这样的内存段都包含了几百到几千项数据条目，默认情况下，Hazelcast会把数据划分为271个分区，并且每个分区都有一个备份副本。当启动一个集群成员时，这271个分区将会一起被启动。

下图展示了集群只有一个节点时的分区情况。

从一个节点的分区情况可以看出，当只启动一个节点时，所有的271个分区都存放在一个节点中。

然后我们启动第二个节点，会出现下面这样的集群分区方式。

其中黑色的字体表示分区，蓝色的字体表示备份。节点1存储了标号为1到135的分区，这些分区会同时备份到节点2中。而节点2则存储了136到271的分区，并备份到了节点1中。

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供：

在这里插入图片描述

因篇幅有限，仅展示部分资料

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

解佳思提

关注

29
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分布式缓存Hazelcast详解及原理探究_hazelcast底层原理

我们知道在JVM中，有自己特定的GC机制，无论数据是在堆中还是栈中，只要发现无效引用的数据块，就有可能被回收。而Hazelcast的分布式数据都存放在JVM的内存中，频繁的读写数据会导致大量的GC开销。。Hazelcast 没有任何中心节点(每个节点都是可以运行在任意服务器的独立JVM)，在运行的过程中，它自己选定集群中的某个节点作为中心点来管理所有的节点。Hazelcast 的数据是分布式存储的。它会尽量将数据存储在需要使用该项数据的节点上，以实现数据去中心化的目的。
复制链接

扫一扫