大数据Hadoop生态系统各框架概述

本文介绍了大数据的概念以及Hadoop框架的核心组件HDFS、MapReduce和Yarn。HDFS解决了大数据存储问题,MapReduce用于分布式计算,而Yarn则负责资源管理和调度。此外,文章还概述了Hadoop生态系统中的Flume、Sqoop、Hive和HBase,它们分别用于日志收集、数据导入导出、结构化数据查询和分布式列式存储。
摘要由CSDN通过智能技术生成

一、什么是大数据?

顾名思义,就是大量的数据。数据量太大,我们就无法在一定时间内用常规软件去处理这些数据,因此就有了大数据技术。

二、Hadoop概述

Hadoop框架包含HDFS、Yarn、MapReduce三个核心组件。

1)HDFS

大量的数据在一台计算机上存不下,就需要用很多计算机来存。多台计算机的存储容量可以存储大数据了,但是多台计算机却不方便管理大数据了,于是就有了Hadoop的HDFS(Hadoop Distributed File System)分布式文件系统。在每台计算机上都装上Hadoop便构成了Hadoop集群。

2)MapReduce

大数据是在hdfs上分布式存储的,如果要处理这些在hdfs上的数据,就需要用到一个分布式的计算框架就是MapReduce。

3)Yarn

Yet Another Resource Negotiator(另一种资源协调者),Yarn是Hadoop上作业调度和集群资源管理的一个框架。当我们编写的MapReduce应用运行在Hadoop上集群时,需要占用多少各cpu的core呢?需要占用多少内存?这些统一的都是由yarn来完成的。可以将Yarn看作是一个操作系统,而MapReduce开发的应用看作计算机程序。MapReduce开发的应用程序运行在Yarn之上。

三、Hadoop生态系统概述

通常我们说的Hadoop,并不单是指Hadoop这个开源框架,而是指Hadoop生态系统。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值