课程简介
Hadoop大数据平台架构与实践
- 大数据技术的相关概念
- Hadoop的架构和运行机制
- 实战:Hadoop的安装与配置
- 实战:Hadoop开发
学习目标
- 掌握大数据存储于处理技术的原理 (理论知识)
- 掌握Hadoop的使用和开发能力 (实践能力)
学习建议
结合书本,知识点更加系统全面
Hadoop技术详解
Hadoop权威指南
实践经验很重要,边听课边实践
坚持很重要
预备知识
Linux常用命令
java编程基础
Hadoop的前世今生
数据无处不在,数据增长越来越快。从海量数据中挖掘更多信息。
如何对大数据进程存储和分析呢?
系统瓶颈:
- 存储容量
- 读写速率
- 计算效率
Google大数据技术
MapReduce、BigTable、GFS被称为革命性的技术
革命性的变化:
- 降低成本,普通PC机就可以保存数据
- 硬件故障视为常态,通过软件容错保证可靠性
- mapreduce简化并行分布式计算,无须控制节点同步和数据交换
但是Google只发表了相关的技术论文,没有开放源代码
一个模仿Google大数据技术的开源实现来了。
Hadoop
黄色的小象
Hadoop的功能与优势
Hadoop是什么
开源的分布式存储和分布式计算平台
Hadoop的组成
包含两个核心组成
- HDFS:分布式文件系统,存储海量的数据
- MapReduce:并行处理框架,实现任务分解和调度
Hadoop可以做什么
搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
如:搜索引擎、商业智能、日志分析、数据挖掘等等
Hadoop的优势
- 高扩展 (简单增加一些硬件就可以得到性能的提升)
- 低成本 (不依赖高端硬件,普通PC机就可以实现)
- 成熟的生态圈 (各种功能组件,降低门槛)
Hadoop人才
- Hadoop分布式的开发
- Hadoop系统的运维和优化
Hadoop的生态系统及版本
最主要的两个核心组件是HDFS和MapReduce。其余的还有一些开源工具组件
Hive
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
中文意思为小蜜蜂,代表着一种牵引作用。利用hive,可以不用编写复杂的hadoop任务程序,只需要编写sql语句,hive就可以转化为hadoop任务去执行。
HBASE
一种存储结构化数据的分布式数据库。
下面两个图分别将HBASE和HDFS以及关系型数据库进行对比
zookeeper
动物管理员。监控Hadoop集群中每个节点的状态,管理集群的配置,维护节点之间数据的一致性等等
Hadoop的版本
目前发展到2.6的版本。1.x与2.x之间差别还是很大的。
课程选择1.2的版本,因为1.2是一个比较稳定的版本。
1.x的版本更容易上手。