大数据名词解释

最新推荐文章于 2022-09-04 23:54:49 发布

置顶

Finderme

最新推荐文章于 2022-09-04 23:54:49 发布

阅读量4.2k

点赞数

分类专栏：大数据学习笔记文章标签：大数据 hadoop spark hdfs mapreduce

本文链接：https://blog.csdn.net/DZFinder/article/details/106058826

版权

这篇博客详细介绍了大数据知识体系，包括Hadoop的ELK技术栈、HDFS、MapReduce、Hive、HBase、Sqoop和Zeppelin。接着讲解了Spark的Scala编程、生态框架以及Flume和Kafka。还讨论了离线数据平台的Hive ETL、Oozie和Tableau，以及实时流处理平台。最后总结了Hadoop、Spark、Flink、Hive和ELK等核心技术。

摘要由CSDN通过智能技术生成

大数据知识体系架构

在这里插入图片描述

第一阶段：Hadoop

一、ELK技术栈:

ELK Stack 是 Elasticsearch、Logstash、Kibana 三个开源软件的组合。在实时数据检索和分析场合，三者通常是配合共用。

Elasticsearch：分布式搜索和分析引擎，具有高可伸缩、高可靠和易管理等特点。基于 Apache Lucene 构建，能对大容量的数据进行接近实时的存储、搜索和分析操作。通常被用作某些应用的基础搜索引擎，使其具有复杂的搜索功能；

Logstash：数据处理引擎，它支持动态的从各种数据源搜集数据，并对数据进行过滤、分析、丰富、统一格式等操作，然后存储到 ES；

Kibana：数据分析和可视化平台。与 Elasticsearch 配合使用，对数据进行搜索、分析和以统计图表的方式展示；

Filebeat：ELK 协议栈的新成员，一个轻量级开源日志文件数据搜集器。在需要采集日志数据的 server 上安装 Filebeat，并指定日志目录或日志文件后，Filebeat 就能读取数据，迅速发送到 Logstash 进行解析。

二、HDFS:Hadoop分布式文件系统

HDFS（Hadoop Distributed File System）是hadoop生态系统中最基础的一部分，是hadoop中的的存储组件。
HDFS是一个分布式文件系统，以流式数据访问模式存储超大文件，将数据分块存储到一个商业硬件集群内的不同机器上。
HDFS涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS中的数据。

HDFS的特点>

（1）超大文件。目前的hadoop集群能够存储几百TB甚至PB级的数据。
（2）流式数据访问。HDFS的访问模式是：一次写入，多次读取，更加关注的是读取整个数据集的整体时间。
（3）商用硬件。HDFS集群的设备不需要多么昂贵和特殊，只要是一些日常使用的普通硬件即可。
（4）不支持低时间延迟的数据访问。hdfs关心的是高数据吞吐量，不适合那些要求低时间延迟数据访问的应用。
（5）单用户写入。hdfs的数据以读为主，只支持单个写入者，写操作总是以添加的形式在文末追加，不支持在任意位置进行修改。

HDFS由四部分组成：
HDFS Client、NameNode、DataNode和Secondary NameNode。

HDFS是一个主/从（Mater/Slave）体系结构。
HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据，DataNode存储实际的数据。