![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BigData
文章平均质量分 80
大数据
Grandpa Yang
这个作者很懒,什么都没留下…
展开
-
ClickHouse表引擎
经常使用MySQL,应该知道InnoDB和MyISAM存储引擎,不同的引擎提供了不同的功能特性。而ClickHouse提供了丰富的表引擎,不同的引擎代表了对数据的不同加载和存储等方式。下面按照不同的分类进行介绍。 日志 具有最小功能的轻量级引擎。当需要快速写入许多小表(最多约100万行)并在以后整体读取它们时,该类型的引擎是最有效的。主要共性有:数据存储在磁盘,不支持索引,不支持原子写,不支持alter操作等。详情如下图: MergeTree 适...原创 2021-07-17 17:27:56 · 143 阅读 · 0 评论 -
MapReduce工作流
如图,在MapReduce阶段,工作流程包括:数据输入分片、Map、Combiner(可选)、Shuffle、Reduce。 数据分片 在文件输入Map之前,需要进行数据分片,每一个InputSplit对应一个Mapper,其中分片信息是由List<InputSplit>存储的,包含数据路径、开始地址、长度、host。分片大小一般和HDFS块大小等同,主要是根据max(blockSize, min(minSize, maxSize))计算得到;其中blo...原创 2021-07-16 20:14:27 · 177 阅读 · 2 评论 -
Kafka组件
Kakfka是高吞吐量的分布式发布订阅消息系统。具备高吞吐、持久化、分布式等优秀特性。下面我们先根据下图对Kafka系统中的组件逐一介绍,再结合组件阐述其工作过程,以及各类特性实现。 Kafka系统组件 1)Producer:生产者,数据的发布者,将消息发布到Kafka的topic中。 2)Broker:服务器节点被称为Broker,每个服务器上有一个或多个kafka的实例。 3)Topic:每条发布到Kafka集群的消息都有一个...原创 2021-07-15 16:06:00 · 1539 阅读 · 0 评论 -
HBase系统架构解析
HBase是一种分布式的、面向列的开源NoSQL数据库。根据官方的说明,其更像是一个数据存储而非数据库,因为其缺失很多数据库的特性。但是其自身又有区别于传统数据库的强大特性,如: 强一致性读写,很适合高速计数聚合类任务; HBase 表通过region被分发在集群中。并且随着数据增长,region会自动切分和重新分发; RegionServer自动故障转移; 支持HDFS作为它的分布式文件系统; 通过MapReduce支持大规模并行处理,并且HB...原创 2021-07-12 19:32:46 · 1123 阅读 · 0 评论