Hadoop概述

大数据(bigdata)
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式
才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决,海量数据的存储和分析计算问题。

1.数据存储单位
bit Byte KB MB GB TB PB EB ZB YB BB NB DB

目前大部分公司数据存储量 TB PB EB

1Byte = 8bit
1024Byte = 1KB
1024K = 1MB
1024M = 1G
1024G = 1T
1024T = 1P

2.存储
    分布式存储
3.计算
    分布式计算

分布式:
    由分布在不同主机上的进程协同在一起,才能构成整个应用。

Hadoop简介
Apache开源软件
创始人:Doug Cutting
Hadoop名称来源于Doug Cutting 儿子的玩具大象

Hadoop是有Apache基金会所开发的分布式系统基础架构。

主要解决海量数据的存储和海量数据的分析计算问题。

广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

GFS --> HDFS
MapReduce --> MapReduce
BigTable --> HBase

Hadoop三大发行版本:
Apache 版本最原始(最基础)的版本,对于入门学习较好;
Cloudera 在大型互联网企业中用的较多;
Hortonworks 文档较好。

Hadoop的优势:
1.高可靠性:维护多个工作数据副本,所以即使Hadoop某个计算元素或存储出现故障也不会导致数据的丢失。
2.高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点;
3.高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度;
4.高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

Hadoop组成
1.HDFS 高可靠。高吞吐量的分布式文件系统
    NameNode 名称节点 NN 存储文件的元数据(文件名、文件目录结构、文件属性),以及每个文件的块列表和块所在的DataNode等。

    DataNode 数据节点 DN
    SecondaryNameNode 辅助名称节点 2NN

2.MapReduce 分布式的离线并行计算框架
    MR 映射和简化,编程模型
    基于yarn系统的对大数据集进行并行计算
    Map 阶段并行处理输入数据
    Reduce 阶段对Map结果进行汇总

3.YARN 作业调度与集群资源管理的框架
    ResourceManager 资源管理器 RM 处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度
    NodeManager 节点管理器 NM 单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令。
    ApplicationMaster 数据切分、为应用程序申请资源,并分配给内部任务、监控任务与容错。
    Container 对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关信息。

4. Hadoop Common 支持其他模块的工具模块。
MapReduct 计算
Yarn 资源调度
HDFS 数据存储 

大数据技术生态体系


业务模型层    业务模型  数据可视化  业务应用

                【Zookeeper 数据平台配置和调度】

任务调度层    Oozie任务调度    azkaban 任务调度

            Spark Streaming 实时计算    Storm 实时计算
        Hive数据查询  MaHout数据挖掘  Spark Mlib 数据挖掘  Spark R 数据分析  Spark Sql数据查询
数据计算层 --    MapReduce离线计算    Spark Core 内存计算

资源管理层 --    YARN 资源管理

数据存储层 --    HDFS 文件存储    HBase 非关系型数据库

数据传输层 -- Sqoop数据传递    Flume日志收集    kafka数据队列

数据来源层 -- 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据)

大数据部门业务流程分析

产品人员提需求(统计总用户数,日活跃用户数,回流用户数)——> 数据部门搭建数据平台、分析数据指标——> 数据可视化(报表展示,邮件发送,大屏幕展示等)

 

Hadoop1.x和Hadoop2.x区别

Hadoop1.x组成

MapReduce(计算+资源调度)

HDFS(数据存储)

Common(辅助工具)

Hadoop2.x组成

MapReduce(计算)

Yarn(资源调度)

HDFS(数据存储)

Common(辅助工具)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值