大数据相关组件大全简述

最新推荐文章于 2024-08-20 21:44:55 发布

lljazxx

最新推荐文章于 2024-08-20 21:44:55 发布

阅读量1.9k

点赞数 3

分类专栏：大数据 hadoop Spark 文章标签：大数据相关组件大全简述大数据相关组件大全大数据相关组件简述大数据相关组件大数据相关组件大全简述概述

本文链接：https://blog.csdn.net/lljazxx/article/details/103190081

版权

本文概述了大数据领域的主要组件，包括Hadoop的HDFS、MapReduce、Yarn，以及Zookeeper、Hive、HBase、Kafka、Storm、Sqoop和Flume。Hadoop是一个分布式系统基础设施，解决大数据存储和计算问题；HDFS是分布式文件系统，适合一次性写入多次读取；MapReduce是分布式运算框架，适用于离线处理；Yarn是资源调度平台。此外，文章还介绍了用于数据仓库的Hive、列式存储的HBase、消息队列Kafka、实时计算系统Storm、数据迁移工具Sqoop以及日志收集系统Flume。

摘要由CSDN通过智能技术生成

大数据相关组件大全简述

本文提到的有：Hadoop，HDFS，MapReduce，Yarn，Zookeepe，Hive，HBase，Kafka，Storm，Sqoop，Flume，Scala，Spark

Hadoop

是一个由Apache基金会所开发的分布式系统基础架构
主要解决，海量数据的存储和海量数据的分析计算问题。
HADOOP通常是指一个更广泛的概念——HADOOP生态圈
Hadoop = HDFS + MR + YARN

HDFS（Hadoop Distributed File System）

是分布式文件管理系统
作用：管理多台机器上的文件
HDFS的设计适合一次写入，多次读出的场景，且不支持文件的修改。
优点：高容错性（副本），适合大数据处理，可构建在廉价机器上，通过多副本机制，提高可靠性
缺点：不适合低延时数据访问，无法高效的对大量小文件进行存储（占用NameNode大量的内存），不支持并发写入、文件随机修改。