大数据平台技术栈

最新推荐文章于 2024-06-25 07:15:00 发布

juan188

最新推荐文章于 2024-06-25 07:15:00 发布

阅读量893

点赞数

分类专栏：大数据大数据开发程序员 spark Linux 大数据学习人工智能数据分析 hadoop 文章标签：大数据大数据学习大数据开发大数据入门

本文链接：https://blog.csdn.net/juan188/article/details/86630581

版权

本文介绍了大数据平台的技术栈，包括采集层（如Sqoop、Flume、Canal、Logstash、Kafka、RocketMQ）、存储层（如HBase、Alluxio、Redis、Ignite、TiDB、HDFS、Ceph、Kudu）、计算层（如Hive、SparkSQL、Impala、Flink、TensorFlow）以及工具层和服务层（如Zeppelin、Jupyter、Kylin）。详细解析了各层的关键项目及其特点，帮助读者理解大数据平台的工作原理。

摘要由CSDN通过智能技术生成

技术栈全貌

大数据平台技术栈

互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因
为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习群：
199加上【427】最后加上210就可以找到组织学习欢迎进阶中和进想深入大数据的小伙伴加入。

下面自底向上介绍各个层的主要项目。

1 采集层和传输层

大数据平台技术栈

采集层

Sqoop

在hadoop和关系型数据库之间转换数据。

Flume

Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据，如web服务器产生的日志，通过Flume将日志写入到Hadoop的HDFS中。

大数据平台技术栈

Flume

Canal

数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库，进行清洗、转换、聚合等操作。在现代网站技术栈中，MySQL 是最常见的数据库管理系统，我们会从多个不同的 MySQL 实例中抽取数据，存入一个中心节点，或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件，如著名的开源项目 Apache Sqoop，然而这些工具并不支持实时的数据抽取。MySQL Binlog 则是一种实时的数据流，用于主从节点之间的数据复制，我们可以利用它来进行数据抽取。借助阿里巴巴开源的 Canal 项目，我们能够非常便捷地将 MySQL 中的数据抽取到任意目标存储中。

最低0.47元/天解锁文章

juan188

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据平台技术栈

技术栈全貌大数据平台技术栈互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习群：199加上【427】最后加上210就可以找到组织学习欢迎进阶中和进想深入大数据的小伙伴加入。下面自底向上介绍各个层的主要项目。...
复制链接

扫一扫

专栏目录