大数据平台以及一些核心组件介绍

艾斯xi

已于 2022-08-22 14:27:18 修改

阅读量1.5k

点赞数 1

分类专栏：数仓扫盲文章标签：大数据数据库 java

于 2022-08-20 13:39:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61059815/article/details/126438716

版权

数仓扫盲专栏收录该内容

9 篇文章

订阅专栏

核心做三件事

1 数据采集：把业务数据转移到hadoop

2 数据计算、存储：

3 数据应用：把hadoop上数据转移到业务系统

1 数据采集

三种方式

1 HDFSAPI 调用接口，将数据写入到hadoop ；

2 sqoop：Hadoop 与传统关系型数据库（Oracle SQL server Mysql）的双向数据同步

3 Flume：是分布式的海量日志采集和传输框架，并不适合做关系型数据库的采集和传输，FLume可以从实时的网络协议、消息系统、文件系统采集日志，并传输到hdfds上；

4 DataX 阿里开源的工具，数据同步的

2 数据计算和存储

流式：实时计算 Storm、spark streaming

批式：离线计算 hive sparksql mapreduce

Hive 是计算引擎，后台使用MR计算执行，因为初衷是进行一次性计算，因此他的执行效率很低，计算速度是最大缺点；

因此目前有一些SQL on hadoop 的框架如 impala，sparksql，presto ，这三种框架基于半内存或者全内存，提供了SQL接口快速查询分析hadoop上的数据；

数据一次采集，多次消费：Kafka

kafka是高吞吐的分布式发布订阅消息系统；

Flume和Kafka的集成，使用Flume监控日志，并将日志数据实时发送至Kafka。这时，使用Flume采集的数据，不是直接到HDFS上，而是先到Kafka，Kafka中的数据可以由多个消费者同时消费，其中一个消费者，就是将数据同步到HDFS。

调度：Oozie

一文读懂大数据平台——写给大数据开发初学者的话! - 知乎

参考了这篇文章，讲的真好。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。