![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据存储
zzzzMing
这个作者很懒,什么都没留下…
展开
-
kafka rebalance解决方案 -incremental cooperative协议和static membership功能
apache kafka的重平衡(rebalance),一直以来都为人诟病。因为重平衡过程会触发stop-the-world(STW),此时对应topic的资源都会处于不可用的状态。小规模的集群还好,如果是大规模的集群,比如几百个节点的consumer或kafka connect等,那么重平衡就是一场灾难。所以我们要尽可能避免重平衡,在之前的文章中也有介绍过这点,有关重平衡的基础内容可以参阅:详细解析kafka之 kafka消费者组与重平衡机制在kafka2.4的时候,社区推出两个新feature来解决原创 2020-12-23 20:20:16 · 868 阅读 · 0 评论 -
数据的存储结构浅析LSM-Tree和B-tree
文章目录顺序存储与哈希索引SSTable和LSM treeB-Tree存储结构的比对小结本篇主要讨论的是不同存储结构(主要是LSM-tree和B-tree),它们应对的不同场景,所采用的底层存储结构,以及对应用以提升效率的索引。所谓数据库,最基础的功能,就是保存数据,并且在需要的时候可以方便地检索到需要的数据。在这个基础上,演化出了不同的数据库系统,以及多种索引机制帮助检索数据。这篇我们就来讨论几种常见的数据存储和索引机制,主要是B-tree,LSM-Tree,以及它们对应的优缺点。顺序存储与哈希索引原创 2020-06-04 22:19:21 · 526 阅读 · 0 评论 -
详细解析kafka之kafka分区和副本
本篇主要介绍kafka的分区和副本,因为这两者是有些关联的,所以就放在一起来讲了,后面顺便会给出一些对应的配置以及具体的实现代码,以供参考~1.kafka分区机制分区机制是kafka实现高吞吐的秘密武器,但这个武器用得不好的话也容易出问题,今天主要就来介绍分区的机制以及相关的部分配置。首先,从数据组织形式来说,kafka有三层形式,kafka有多个主题,每个主题有多个分区,每个分区又有多条消...原创 2020-03-11 21:17:26 · 963 阅读 · 4 评论 -
分布式系统一致性问题与Raft算法(上)
最近在做MIT6.824的几个实验,真心觉得每一个做分布式相关开发的程序员都应该去刷一遍(裂墙推荐),肯定能够提高自己的技术认知水平,同时也非常感谢MIT能够把这么好的资源分享出来。其中第二个实验,就是要基于raft算法,实现一个分布式一致性系统。但今天先不说raft算法,而是先讨论下什么是分布式一致性问题,以及为什么它会难!!下一章再说raft是如何设计从而解决了分布式共识这一难题。什么是分...原创 2020-02-28 19:37:55 · 581 阅读 · 0 评论 -
Mysql 流增量写入 Hdfs(二) --Storm + hdfs 的流式处理
一. 概述上一篇我们介绍了如何将数据从 mysql 抛到 kafka,这次我们就专注于利用 storm 将数据写入到 hdfs 的过程,由于 storm 写入 hdfs 的可定制东西有些多,我们先不从 kafka 读取,而先自己定义一个 Spout 数据充当数据源,下章再进行整合。这里默认你是拥有一定的 storm 知识的基础,起码知道 Spout 和 bolt 是什么。写入 hdfs 可以有...原创 2018-12-12 21:10:50 · 374 阅读 · 0 评论 -
从 hadoop 1.0 到 hadoop 2.0 的演化
1. 概述在 Google 三篇大数据论文发表之后,Cloudera 公司在这几篇论文的基础上,开发出了现在的 Hadoop 。但 Hadoop 开发出来也并非一帆风顺的,Hadoop 1.0 版本有诸多局限。在后续的不断实践之中, Hadoop 2.0 横空出世,而后 Hadoop 2.0 逐渐成为主流。这次我们就来看看 Hadoop 从 1.0 遇到了哪些问题,又为什么需要做架构的升级呢?...原创 2018-12-25 21:08:02 · 733 阅读 · 0 评论 -
深入浅出 Hadoop YARN
一. Hadoop Yarn 是什么在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这一改动,直接让 Hadoop 成为大数据中最稳固的那一块基石。,而这个独...原创 2019-01-06 20:14:03 · 261 阅读 · 0 评论