大数据产品介绍

本文介绍了大数据领域的关键组件,包括Elasticsearch的分布式搜索和分析特性,ClickHouse的列式存储与向量化执行引擎,Kafka的高吞吐量消息系统,Redis的高性能键值存储,以及Hive、Spark、Flink、Storm、Hbase等在大数据处理中的应用。文章探讨了各种技术的优缺点,适用场景以及它们在实际业务中的成功案例。
摘要由CSDN通过智能技术生成

elasticsearch
elasticsearch 简称ES : 分布式可扩展去中心化的实时搜索和分析引擎
去中心化:即无主节点,对外部来说,无论你访问的是哪个节点,都是和整个集群在互信。它的主节点是可以通过选举产生的。
特点:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索;可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
存储:Elasticsearch是面向文档型数据库,一条数据是一个文档,用JSON格式存储。
搜索:ES的一切设计是为了检索快速响应。使用倒排索引的设计方式,为每一列都建立索引。虽然会牺牲插入和更新的效率,但ES的核心是查询。

shards : 索引分片。将一个大的索引分成多个分片,分布到不同节点上,构成分布式搜索。只能在索引创建前指定,其后不可更改。
replicas :副本。 1、提高容错性 2、查询时可以负载均衡。
recovery : 数据重新分布。 新增或减少节点的时候,会recovery

click house MPP架构的支持向量化引擎的列式存储
1、完备的DBMS功能:DML、DDL、DCL、权限控制、
2、列存储与数据压缩 :列存储只需扫描需要的列,而无须整表扫描,返回所需的列。压缩减少网络传输。
3、向量化执行引擎:消除程序中的循环,用多指令【cpu的寄存器指令集】的方式并发执行,代替循环。属于数据级并发;其与多线程【线程级并发】联合使用,加快访问速度。
4、分布式存储:既支持分区 ( 纵向扩展,利用多线程原理 ),也支持分片 ( 横向扩展,利用分布式原理 )。计算时移动计算比移动数据要高效的多的多。
5、多主架构:访问任何一个节点都是对等的,且可以天然避免单点故障。

MPP与分布式 https://blog.csdn.net/qq_33876553/article/details/108728204?utm_medi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值