10小时入门大数据:第2章-初识Hadoop

Hadoop概述

·        hadoop名字,玩具命名

·        hadoop.apache.org

·        包含的模块框架

·        common公用

·        hdfs分布式文件系统

·        yarn作业的调度和集群资源的管理

·        MapReduce基于yarn的并行的处理数据的框架

·        介绍

·        开源的

·        分布式存储+分布式计算平台

·        hadoop能做什么

·        搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务

·        应用方向

·        搜索引擎

·        日志分析

·        商业智能

·        数据挖掘

Hadoop核心组件之HDFS

·        源于google的GFS论文,发表于2003.10

·        HDFS是GFS克隆版

·        HDFS特点:扩展性,容错性,海量数据存储

·        将文件切分成指定大小的数据块(128mb)并以多副本的方式存储在多个机器上

·        数据切分,多副本,容错等操作对于用户来说是透明的,具体的操作不需要知道

·        分块给编号使用的时候拼起来

Hadoop核心组件之YARN

·        yarn:yet another resource negotiator

·        负责整个集群资源的管理,占用多少块或者内存呢

·        yarn特点:扩展性,容错性,多框架资源统一调度

Hadoop核心组件之MapReduce(分布式计算框架)

·        google论文,2004.12

·        MapReduce是google MapReduce的克隆版

·        特点:扩展性,容错性,海量数据离线处理(延时性很大)

·        处理过程

·        map映射

·        reduce最终的合并

·        流程(统计一篇文章单词出现的次数)

·        input

·        splitting

·        mapping

·        shuffling

·        reducing

·        final result

Hadoop优势

高可靠性

·        数据存储:数据块多副本

·        数据计算:重新调度作业计算

扩展性

·        存储/计算资源不够时,可以横向的线性扩展机器

·        一个集群中可以包含数以千计的节点

其他

·        存储在廉价的机器上,降低成本

·        成熟的生态圈

Hadoop发展史

·        info上边有一个文章介绍历史

·        spark代替了mapreduce

Hadoop生态系统

·        狭义上

·        是一个适合大数据分布式存储HDFS、分布式计算MapReduce和资源调度YARN的平台

·        广义上

·        指的是Hadoop生态系统,是一个庞大的概念,hadoop是其中最重要的基础的一个部分,生态系统中的每一个子系统只解决某一特定问题域,不搞统一型的一个全能系统,而是小而精的多个小系统

·        Hadoop生态系统构成

·        HDFS存储数据

·        YARN、MapReduce计算框架

·        Hive也是离线分析,写sql然后通过处理转换成MapReduce能处理的

·        R语言

·        Mahout机器学习的库

·        pig脚本性的语言

·        Oozie工作流,调度引擎,类似于ActiveMq

·        Zookeeper分布式协调服务,注册中心

·        Flume日志收集框架

·        Sqoop用于传统数据库和hadoop的数据传输

·        HBase是Hadoop中的数据库,实时查询

·        Hadoop生态系统的特点

·        开源,社区活跃

·        囊括了大数据的方方面面

·        成熟的生态圈

Hadoop常用发行版本和选型

·        发行版

·        Apache Hadoop只是解决了单个框架的问题

·        CDHhttp://archive.cloudera.com/cdh5/cdh/5/根据cdh选择版本,优先选择

·        HDP

Hadoop企业应用案例

消费大数据

·        亚马逊提前发货

商品零售大数据

·        怀孕

·        啤酒

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值