入门大数据组件

最新推荐文章于 2024-05-02 23:42:15 发布

casterQ

最新推荐文章于 2024-05-02 23:42:15 发布

阅读量123

点赞数

分类专栏：数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16164711/article/details/119822036

版权

数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Google三驾马车，大数据基石：

GFS：存储->hdfs
MapReduce：分析->hadoop
Bigtable：查询->hbase(基于GFS结构化存储

OLAP： olap：联机分析处理；oltp：联机事务处理

MOLAP：预处理，预计算，查询快，不灵活
ROLAP：不需要预处理，查询灵活，查询性能不好
HOLAP：当查询聚合性数据的时候，使用MOLAP 技术；当查询明细数据时，使用 ROLAP 技术。

1. 数仓：ODS -> DW(DM) -> APP

ODS：操作性数据，数据源经过ETL到达本层
DW：数据仓库，ODS进行数据建模形成。
- DWD：明细层，？
- DWM：轻度汇总，处理，？
- DWS(DM)：数据集市即宽表，用于业务查询
APP：针对业务深度成熟的DM
DIM：维表，标签系统

lambda架构：离线批处理不满足实时性要求，再加一条实时计算的路。两条路独立。
kappa架构：流批统一，即抛弃批处理。

Impala ：ROLAP，业务使用sql查多个库，支持kudu
Presto：ROLAP，业务使用sql查多个库，跨数据源join

kylin：MOLAP，空间换时间，预计算hive数据到hbase
druid：MOLAP，？

Hbase ：可以更新，依赖rowkey高速随机读写，不适合分析
kudu ：介于二者之间，和hbase都基于BigTable
hdfs ：列式存储，无法更新，适合分析

Tidb ：mysql分库分表
doris ：ROLAP
clickhouse ：c++，俄罗斯老哥研发

es：搜索引擎，轻度存储库

2. 数据湖：

与数仓不同，专注于数据资产的统一管理而不是存储和计算。全量数据单一存储，一锅烩(结构非结构)，支持大量存储以及数据分析。治理不好就变沼泽。

iceberg： 不擅长update，delete，merge，专注查询性能，支持ACID，flink集成完备，数据merge可以通过spark/flink任务进行。
hudi(Apache)： Hadoop Upserts Deletes and Incrementals，查询支持Hive、Spark(首选)、Presto，flink也在集成(想替代spark的野心)，支持 Copy On Write(写入merge)和 Merge On Read(查询merge)。腾讯，阿里在搞
delta(Apache)： 支持 update，delete，merge，实现基于spark的join功能，数据写入与Spark是绑定，流批一体。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
入门大数据组件

Google三驾马车，大数据基石：GFS：存储->hdfsMapReduce：分析->hadoopBigtable：查询->hbase(基于GFS结构化存储OLAP： olap：联机分析处理；oltp：联机事务处理MOLAP：预处理，预计算，查询快，不灵活ROLAP：不需要预处理，查询灵活，查询性能不好HOLAP：当查询聚合性数据的时候，使用MOLAP 技术；当查询明细数据时，使用 ROLAP 技术。1. 数仓：ODS -> DW(DM) -> APP
复制链接

扫一扫

专栏目录

casterQ CSDN认证博客专家 CSDN认证企业博客

码龄10年

43: 原创

15万+: 周排名

115万+: 总排名

8万+: 访问

: 等级

793: 积分

9: 粉丝

18: 获赞

14: 评论

109: 收藏

私信

关注

热门文章

分类专栏

flink 1篇
数据 1篇
JVM
elasticsearch 33篇
JAVA 2篇
kafka 1篇
flume 1篇
phyton
python 1篇
spark 1篇
hive 1篇

最新评论

Flink 消费 Kafka 分区顺序性问题
casterQ: 最后一张图片
Flink 消费 Kafka 分区顺序性问题
lixia0417mul2: 确定是这样不会打乱，是吗，有代码依据吗
es实战-使用IK分词器进行词频统计
casterQ: 复制粘贴？首发铭毅天下的公众号、我自己的简书和CSDN，三个地方作者都有标注是我，你说谁复制粘贴？
es实战-使用IK分词器进行词频统计
康抗: 复制粘贴S全家
es实战-7.9源码编译
我叫城北徐公: 按照你上面说的这个，绝对会提示model找不到

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。