大数据平台技术栈

本文介绍了大数据平台的技术栈,包括采集层(如Sqoop、Flume、Canal、Logstash、Kafka、RocketMQ)、存储层(如HBase、Alluxio、Redis、Ignite、TiDB、HDFS、Ceph、Kudu)、计算层(如Hive、SparkSQL、Impala、Flink、TensorFlow)以及工具层和服务层(如Zeppelin、Jupyter、Kylin)。详细解析了各层的关键项目及其特点,帮助读者理解大数据平台的工作原理。
摘要由CSDN通过智能技术生成

技术栈全貌

 

 

大数据平台技术栈

大数据平台技术栈

互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因
为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:
199加上【427】最后加上210就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入。

 

 

下面自底向上介绍各个层的主要项目。

1 采集层和传输层

 

大数据平台技术栈

采集层

 

 

  • Sqoop

在hadoop和关系型数据库之间转换数据。

  • Flume

Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。

 

大数据平台技术栈

Flume

 

 

  • Canal

数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据抽取。MySQL Binlog 则是一种实时的数据流,用于主从节点之间的数据复制,我们可以利用它来进行数据抽取。借助阿里巴巴开源的 Canal 项目,我们能够非常便捷地将 MySQL 中的数据抽取到任意目标存储中。

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值