Hadoop 大数据技术原理与应用
大数据概述
定义
特征
- 大量,多样,高速,价值
研究意义
应用场景
- 医疗,金融,零售
Hadoop 概述
历史
优势
- 扩容能力强,成本低,高效率,可靠性,高容错
Hadoop 生态
- 分布式存储系统(HDFS)
- 分布式计算框架(MapReduce)
- 资源管理(YARN)
- 数据迁移(Sqoop)
- 数据挖掘算法库(Mahout)
- 分布式数据库(HBase)
- 分布式协调服务(Zookeeper)
- 数据仓库(Hive)
- 日志收集(Flume)
版本
搭建 Hadoop 集群
安装准备
- 虚拟机安装
- Linux 网络配置
- SSH 服务配置
Hadoop 集群搭建
- 部署模式
- JDK 安装
- Hadoop 安装
- Hadoop 集群配置
测试
- 格式化文件系统
- 启动
- 通过 UI 查看运行状态
HDFS 分布式文件系统
简介
-
演变
-
基本概念
- 名称节点(NameNode)
- 数据节点(DataNode)