大数据,这些你了解了么?

一.Hadoop的起源

    谈到大数据,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!

Google FS---------> HDFS

MapReduce-------> MapReduce

BigTable------------> HBase

将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。

二.分布式:

相对于集中式
集中式特点:
一台机器,所有东西(软件)都放在此计算机上(安装)
分布式特点:
多台机器:将东西(硬件)进行划分,每台机器存储一部分
元数据:记录数据分配给那一个从节点的数据
架构:
主节点Master 老大,管理者
管理
从节点Slave 从属,奴隶,被管理者

干活

三.大数据框架按照功能来划分

海量数据存储:
HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES
海量数据分析:

MapReduce、Spark、SQL

四.最原始的Hadoop框架

数据存储:HDFS(Hadoop Distributed File System)
数据分析:MapReduce

五.Hadoop介绍

大数据绝大多数框架,都属于Apache顶级项目

Apache官网:

            http://apache.org/

hadoop官网:

            http://hadoop.apache.org/

六.Hadoop模块

Hadoop也是分布式架构

HDFS:
主节点:NameNode
决定着数据存储到那个DataNode上
从节点:DataNode
存储数据

MapReduce:

分而治之思想

将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结

            果进行合并

map task
单独处理每一部分的数据、

reduce task
合并map task的输出

YARN:

分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)

合理调度分配给各个程序(MapReduce)使用

主节点:resourceManager

掌管集群中的资源

从节点:nodeManager
管理每台集群资源

                                                 

作者:唐平                                                                                                                            部分信息来自于互联网

时间:2018-06-09




  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值