大数据产品介绍

最新推荐文章于 2022-08-22 11:08:19 发布

--洗洗睡吧--

最新推荐文章于 2022-08-22 11:08:19 发布

阅读量3.9k

点赞数 5

分类专栏：技术文章标签：大数据

本文链接：https://blog.csdn.net/m0_37916583/article/details/92568064

版权

本文介绍了大数据领域的关键组件，包括Elasticsearch的分布式搜索和分析特性，ClickHouse的列式存储与向量化执行引擎，Kafka的高吞吐量消息系统，Redis的高性能键值存储，以及Hive、Spark、Flink、Storm、Hbase等在大数据处理中的应用。文章探讨了各种技术的优缺点，适用场景以及它们在实际业务中的成功案例。

摘要由CSDN通过智能技术生成

elasticsearch
elasticsearch 简称ES ：分布式可扩展去中心化的实时搜索和分析引擎
去中心化：即无主节点，对外部来说，无论你访问的是哪个节点，都是和整个集群在互信。它的主节点是可以通过选举产生的。
特点：分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索；可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。
存储：Elasticsearch是面向文档型数据库，一条数据是一个文档，用JSON格式存储。
搜索：ES的一切设计是为了检索快速响应。使用倒排索引的设计方式，为每一列都建立索引。虽然会牺牲插入和更新的效率，但ES的核心是查询。

shards ：索引分片。将一个大的索引分成多个分片，分布到不同节点上，构成分布式搜索。只能在索引创建前指定，其后不可更改。
replicas ：副本。 1、提高容错性 2、查询时可以负载均衡。
recovery ：数据重新分布。新增或减少节点的时候，会recovery

click house MPP架构的支持向量化引擎的列式存储
1、完备的DBMS功能：DML、DDL、DCL、权限控制、
2、列存储与数据压缩：列存储只需扫描需要的列，而无须整表扫描，返回所需的列。压缩减少网络传输。
3、向量化执行引擎：消除程序中的循环，用多指令【cpu的寄存器指令集】的方式并发执行，代替循环。属于数据级并发；其与多线程【线程级并发】联合使用，加快访问速度。
4、分布式存储：既支持分区 ( 纵向扩展，利用多线程原理 )，也支持分片 ( 横向扩展，利用分布式原理 )。计算时移动计算比移动数据要高效的多的多。
5、多主架构：访问任何一个节点都是对等的，且可以天然避免单点故障。

MPP与分布式 https://blog.csdn.net/qq_33876553/article/details/108728204?utm_medi