十小时入门大数据学习笔记(二)

第二章 初识Hadoop

2.1Hadoop概述

名称由来:项目作者的孩子对黄色大象玩具的命名

开源、分布式存储与分布式计算的平台

 

Hadoop能做什么:

1. 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务

2. 搜索引擎、日志分析、数据挖掘、商业智能

 

2.2Hadoop核心组件

HDFS(分布式文件系统)

1. 源于Google200310月发表的GFS论文

2. GFS的克隆

3. 特点:扩展性、容错性、海量数据存储

4. 将文件切分成指定大小的数据块并且多副本存于多个机器上

5. 数据切分、多副本、容错对用户是透明的

 


YARN(资源管理系统)

1. 整个集群资源的管理与调度

2. 特点:扩展性、容错性、多框架资源统一调度

 

 

MapReduce(分布式计算框架)

1. 200412月的GoogleMapReduce论文

2. Google MapReduce的克隆版

3. 特点:扩展性、容错性、海量数据的离线处理

 

 

2.3Hadoop优势

Hadoop优势之高扩展性

1. 存储/计算资源不够可以横向线性的扩展机器

2. 一个集群可以包含数以千计、万计的节点

 

Hadoop其他优势

1. 存储在低廉机器上、成本低廉

2. 成熟的生态圈

 

2.4Hadoop发展史

Hadoop十年解读与发展预测》

狭义的Hadoop:适合于大数据的分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。

广义的HadoopHadoop生态系统,庞大的概念,hadoop是其中最重要最基础的一部分;生态系统中的每一个子系统针对特定的问题域(甚至可能更窄);不搞统一型的全能系统,而是小而精的多个小系统。

 

2.5Hadoop的生态系统

 

生态系统特点:

1. 开源、社区活跃

2. 囊括了大数据处理的方方面面

 

2.6Hadoop发行版的选择

1. Apache Hadoop

2. CDHCloudera Distributed Hadoop

3.HDPHortonworks Data Platform

 

2.7企业中的应用案例

1. 消费大数据

2. 商品零售大数据

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值