一、什么是大数据?
顾名思义,就是大量的数据。数据量太大,我们就无法在一定时间内用常规软件去处理这些数据,因此就有了大数据技术。
二、Hadoop概述
Hadoop框架包含HDFS、Yarn、MapReduce三个核心组件。
1)HDFS
大量的数据在一台计算机上存不下,就需要用很多计算机来存。多台计算机的存储容量可以存储大数据了,但是多台计算机却不方便管理大数据了,于是就有了Hadoop的HDFS(Hadoop Distributed File System)分布式文件系统。在每台计算机上都装上Hadoop便构成了Hadoop集群。
2)MapReduce
大数据是在hdfs上分布式存储的,如果要处理这些在hdfs上的数据,就需要用到一个分布式的计算框架就是MapReduce。
3)Yarn
Yet Another Resource Negotiator(另一种资源协调者),Yarn是Hadoop上作业调度和集群资源管理的一个框架。当我们编写的MapReduce应用运行在Hadoop上集群时,需要占用多少各cpu的core呢?需要占用多少内存?这些统一的都是由yarn来完成的。可以将Yarn看作是一个操作系统,而MapReduce开发的应用看作计算机程序。MapReduce开发的应用程序运行在Yarn之上。
三、Hadoop生态系统概述
通常我们说的Hadoop,并不单是指Hadoop这个开源框架,而是指Hadoop生态系统。