一.Hadoop的起源
谈到大数据,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!
Google FS---------> HDFS
MapReduce-------> MapReduce
BigTable------------> HBase
将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
二.分布式:
相对于集中式集中式特点:
一台机器,所有东西(软件)都放在此计算机上(安装)
分布式特点:
多台机器:将东西(硬件)进行划分,每台机器存储一部分
元数据:记录数据分配给那一个从节点的数据
架构:
主节点Master 老大,管理者
管理
从节点Slave 从属,奴隶,被管理者
干活
三.大数据框架按照功能来划分
海量数据存储:HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES
海量数据分析:
MapReduce、Spark、SQL
四.最原始的Hadoop框架
数据存储:HDFS(Hadoop Distributed File System)数据分析:MapReduce
五.Hadoop介绍
大数据绝大多数框架,都属于Apache顶级项目
Apache官网:
http://apache.org/
hadoop官网:
http://hadoop.apache.org/
六.Hadoop模块
Hadoop也是分布式架构
HDFS:
主节点:NameNode
决定着数据存储到那个DataNode上
从节点:DataNode
存储数据
MapReduce:
分而治之思想
将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结
果进行合并
map task单独处理每一部分的数据、
reduce task
合并map task的输出
YARN:
分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)
合理调度分配给各个程序(MapReduce)使用
主节点:resourceManager掌管集群中的资源
从节点:nodeManager管理每台集群资源
作者:唐平 部分信息来自于互联网
时间:2018-06-09