Hadoop概述
· hadoop名字,玩具命名
· 包含的模块框架
· common公用
· hdfs分布式文件系统
· yarn作业的调度和集群资源的管理
· MapReduce基于yarn的并行的处理数据的框架
· 介绍
· 开源的
· 分布式存储+分布式计算平台
· hadoop能做什么
· 搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务
· 应用方向
· 搜索引擎
· 日志分析
· 商业智能
· 数据挖掘
Hadoop核心组件之HDFS
· 源于google的GFS论文,发表于2003.10
· HDFS是GFS克隆版
· HDFS特点:扩展性,容错性,海量数据存储
· 将文件切分成指定大小的数据块(128mb)并以多副本的方式存储在多个机器上
· 数据切分,多副本,容错等操作对于用户来说是透明的,具体的操作不需要知道
· 分块给编号使用的时候拼起来
Hadoop核心组件之YARN
· yarn:yet another resource negotiator
· 负责整个集群资源的管理,占用多少块或者内存呢
· yarn特点:扩展性,容错性,多框架资源统一调度
Hadoop核心组件之MapReduce(分布式计算框架)
· google论文,2004.12
· MapReduce是google MapReduce的克隆版
· 特点:扩展性,容错性,海量数据离线处理(延时性很大)
· 处理过程
· map映射
· reduce最终的合并
· 流程(统计一篇文章单词出现的次数)
· input
· splitting
· mapping
· shuffling
· reducing
· final result
Hadoop优势
高可靠性
· 数据存储:数据块多副本
· 数据计算:重新调度作业计算
扩展性
· 存储/计算资源不够时,可以横向的线性扩展机器
· 一个集群中可以包含数以千计的节点
其他
· 存储在廉价的机器上,降低成本
· 成熟的生态圈
Hadoop发展史
· info上边有一个文章介绍历史
· spark代替了mapreduce
Hadoop生态系统
· 狭义上
· 是一个适合大数据分布式存储HDFS、分布式计算MapReduce和资源调度YARN的平台
· 广义上
· 指的是Hadoop生态系统,是一个庞大的概念,hadoop是其中最重要的基础的一个部分,生态系统中的每一个子系统只解决某一特定问题域,不搞统一型的一个全能系统,而是小而精的多个小系统
· Hadoop生态系统构成
· HDFS存储数据
· YARN、MapReduce计算框架
· Hive也是离线分析,写sql然后通过处理转换成MapReduce能处理的
· R语言
· Mahout机器学习的库
· pig脚本性的语言
· Oozie工作流,调度引擎,类似于ActiveMq
· Zookeeper分布式协调服务,注册中心
· Flume日志收集框架
· Sqoop用于传统数据库和hadoop的数据传输
· HBase是Hadoop中的数据库,实时查询
· Hadoop生态系统的特点
· 开源,社区活跃
· 囊括了大数据的方方面面
· 成熟的生态圈
Hadoop常用发行版本和选型
· 发行版
· Apache Hadoop只是解决了单个框架的问题
· CDHhttp://archive.cloudera.com/cdh5/cdh/5/根据cdh选择版本,优先选择
· HDP
Hadoop企业应用案例
消费大数据
· 亚马逊提前发货
商品零售大数据
· 怀孕
· 啤酒