1.Hadoop介绍与伪分布式安装
1.1什么是Hadoop
从狭义上讲Hadoop是一个可拓展的分布式的开源的软件。主要提供分布式存储、分布式资源调度、分布式计算。
广义上讲,Hadoop是一个生态。包含了大数据领域中的几乎所有的解决方案。
1.2Hadoop核心模块
- Hadoop Common : Hadoop的通用的API
- HDFS (Haddop Distribute File System) : 分布式文件管理系统,高吞吐量的存储的数据。
- Yarn : 作业调度以及资源管理的框架
- Mapreduce : 一种分布式并行的处理海量数据(基于Yarn)
1.3Hadoop生态
1.4安装Hadoop
1.4.1单机安装
## 1. 解压然后切换到安装目录
[root@hadoop software]# tar -zxvf hadoop-2.8.1.tar.gz -C /opt/apps/
[root@hadoop apps]# cd hadoop-2.8.1/## 2. 配置环境变量
[root@hadoop hadoop-2.8.1]# vi /etc/profile## 自定义环境变量
export JAVA_HOME=/opt/apps/jdk1.8.0_45
export HADOOP_HOME=