史上最全的大数据技术栈，有种冲动学习的既视感，你是否感受到了自己的不足？

UYruihu

于 2024-04-13 21:54:41 发布

阅读量944

点赞数 8

分类专栏：程序员文章标签：大数据学习

本文链接：https://blog.csdn.net/UYruihu/article/details/137726436

版权

程序员专栏收录该内容

30 篇文章 0 订阅

订阅专栏

Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据，如web服务器产生的日志，通过Flume将日志写入到Hadoop的HDFS中。

Canal

数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库，进行清洗、转换、聚合等操作。在现代网站技术栈中，MySQL 是最常见的数据库管理系统，我们会从多个不同的 MySQL 实例中抽取数据，存入一个中心节点，或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件，如著名的开源项目 Apache Sqoop，然而这些工具并不支持实时的数据抽取。MySQL Binlog 则是一种实时的数据流，用于主从节点之间的数据复制，我们可以利用它来进行数据抽取。借助阿里巴巴开源的 Canal 项目，我们能够非常便捷地将 MySQL 中的数据抽取到任意目标存储中。

Logstash

Logstash 是开源的服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到您最喜欢的 “存储库” 中。

Kafka

消息队列，一个分布式流平台。

RocketMQ

阿里巴巴开源的消息队列。

2 存储层

=====

HBase

HBase是Hadoop数据库，一个分布式，可扩展的大数据存储。

Alluxio/Redis/Ignite

Alluxio以内存为中心分布式存储系统，从下图可以看出， Alluxio主要有两大功能，第一提供一个文件系统层的抽象，统一文件系统接口，桥接储存系统和计算框架；第二通过内存实现对远程数据的加速访问。

Redis是一个开源的内存键值数据库，相比于Memcache，支持丰富的数据结构。

Ignit是一个以内存为中心的分布式数据库，缓存和处理平台，用于事务，分析和流式工作负载，在PB级别的数据上提供接近内存速度访问数据。

从上述分析可知，Alluxio/Redis/Ignite主要都是通过内存来实现加速。

TiDB

TiDB私有PingCap开源的分布式NewSQL关系型数据库。**NewSQL数据库有两个流派，分别是以Google为代表的Spanner/F1和以Amazon 为代表的Aurora(极光)，目前国内做NewSQL数据库主要是参考Google的Spanner架构，Google Spanner也是未来NewSQL的发展趋势。

HDFS

Hadoop的分布式文件系统。

Ceph

Linux中备受关注的开源分布式存储系统，除了GlusterFS，当属Ceph。目前Ceph已经成为RedHat旗下重要的分布式存储产品，并继续开源。Ceph提供了块储存RDB、分布式文件储存Ceph FS、以及分布式对象存储Radosgw三大储存功能，是目前为数不多的集各种存储能力于一身的开源存储中间件。

Kudu

Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用，目前是Apache Hadoop生态圈的新成员之一（incubating）。

Kudu的设计与众不同,它定位于应对快速变化数据的快速分析型数据仓库，希望靠系统自身能力，支撑起同时需要高吞吐率的顺序和随机读写的应用场景，提供一个介于HDFS和HBase的性能特点之间的一个系统，在随机读写和批量扫描之间找到一个平衡点，并保障稳定可预测的响应延迟。可与MapReduce, Spark和其它hadoop生态系统集成。

3 计算层

=====

Hive

Facebook 开源。Hive是一个构建在Hadoop上的数据仓库框架。Hive的设计目标是让精通SQL技能但Java编程技能相对较弱的分析师能对存放在Hadoop上的大规数据执行查询。

Hive的查询语言HiveQL是基于SQL的。任何熟悉SQL的人都可以轻松使用HiveSQL写查询。和RDBMS相同，Hive要求所有数据必须存储在表中，而表必须有模式（Schema），且模式由Hive进行管理。

类似Hive的同类产品：kylin druid SparkSQL Impala。

KylinApache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

Druid 为监控而生的数据库连接池。

**SparkSQL,**Spark SQL是Apache Spark的用于处理结构化数据的模块。

**Impala,**Impala是Apache Hadoop的开源，本地分析数据库。它由Cloudera，MapR，Oracle和Amazon等供应商提供。

Spark

Spark是一个分布式计算框架。

Storm

Storm是一个分布式的、高容错的实时计算系统。Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语，使我们对数据进行批处理变的非常的简单和优美。同样，Storm也对数据的实时计算提供了简单Spout和Bolt原语。

Storm适用的场景：①、流数据处理：Storm可以用来用来处理源源不断的消息，并将处理之后的结果保存到持久化介质中。②、分布式RPC：由于Storm的处理组件都是分布式的，而且处理延迟都极低，所以可以Storm可以作为一个通用的分布式RPC框架来使用。

Flink

Apache Flink是一个框架和分布式处理引擎，用于对无限制和有限制的数据流进行有状态的计算。 Flink旨在运行在所有常见的集群环境中，以内存速度和任何规模执行计算。

TensorFlow

TensorFlow™是用于高性能数值计算的开源软件库。其灵活的体系结构允许轻松地在各种平台（CPU，GPU，TPU）之间以及从台式机到服务器群集到移动和边缘设备的计算部署。它最初是由Google AI组织的Google Brain团队的研究人员和工程师开发的，它具有对机器学习和深度学习的强大支持，并且灵活的数值计算核心已在许多其他科学领域中使用。

分布式资源调度

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

码讲义、实战项目、讲解视频，并且后续会持续更新**

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）
[外链图片转存中…(img-4TyFhg5s-1713016412201)]

UYruihu

关注

8
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
史上最全的大数据技术栈，有种冲动学习的既视感，你是否感受到了自己的不足？

Kudu的设计与众不同,它定位于应对快速变化数据的快速分析型数据仓库，希望靠系统自身能力，支撑起同时需要高吞吐率的顺序和随机读写的应用场景，提供一个介于HDFS和HBase的性能特点之间的一个系统，在随机读写和批量扫描之间找到一个平衡点，并保障稳定可预测的响应延迟。Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用，目前是Apache Hadoop生态圈的新成员之一（incubating）。
复制链接

扫一扫