一、什么是大数据?
顾名思义,就是大量的数据。数据量太大,我们就无法在一定时间内用常规软件去处理这些数据,因此就有了大数据技术。
二、Hadoop概述
Hadoop框架包含HDFS、Yarn、MapReduce三个核心组件。
1)HDFS
大量的数据在一台计算机上存不下,就需要用很多计算机来存。多台计算机的存储容量可以存储大数据了,但是多台计算机却不方便管理大数据了,于是就有了Hadoop的HDFS(Hadoop Distributed File System)分布式文件系统。在每台计算机上都装上Hadoop便构成了Hadoop集群。
2)MapReduce
大数据是在hdfs上分布式存储的,如果要处理这些在hdfs上的数据,就需要用到一个分布式的计算框架就是MapReduce。
3)Yarn
Yet Another Resource Negotiator(另一种资源协调者),Yarn是Hadoop上作业调度和集群资源管理的一个框架。当我们编写的MapReduce应用运行在Hadoop上集群时,需要占用多少各cpu的core呢?需要占用多少内存?这些统一的都是由yarn来完成的。可以将Yarn看作是一个操作系统,而MapReduce开发的应用看作计算机程序。MapReduce开发的应用程序运行在Yarn之上。
三、Hadoop生态系统概述
通常我们说的Hadoop,并不单是指Hadoop这个开源框架,而是指Hadoop生态系统。

本文介绍了大数据的概念以及Hadoop框架的核心组件HDFS、MapReduce和Yarn。HDFS解决了大数据存储问题,MapReduce用于分布式计算,而Yarn则负责资源管理和调度。此外,文章还概述了Hadoop生态系统中的Flume、Sqoop、Hive和HBase,它们分别用于日志收集、数据导入导出、结构化数据查询和分布式列式存储。
最低0.47元/天 解锁文章
408

被折叠的 条评论
为什么被折叠?



