1.Hadoop介绍与伪分布式安装
1.1什么是Hadoop
从狭义上讲Hadoop是一个可拓展的分布式的开源的软件。主要提供分布式存储、分布式资源调度、分布式计算。
广义上讲,Hadoop是一个生态。包含了大数据领域中的几乎所有的解决方案。
1.2Hadoop核心模块
- Hadoop Common : Hadoop的通用的API
- HDFS (Haddop Distribute File System) : 分布式文件管理系统,高吞吐量的存储的数据。
- Yarn : 作业调度以及资源管理的框架
- Mapreduce : 一种分布式并行的处理海量数据(基于Yarn)
1.3Hadoop生态
1.4安装Hadoop
1.4.1单机安装
## 1. 解压然后切换到安装目录
[root@hadoop software]# tar -zxvf hadoop-2.8.1.tar.gz -C /opt/apps/
[root@hadoop apps]# cd hadoop-2.8.1/## 2. 配置环境变量
[root@hadoop hadoop-2.8.1]# vi /etc/profile## 自定义环境变量
export JAVA_HOME=/opt/apps/jdk1.8.0_45
export HADOOP_HOME=/opt/apps/hadoop-2.8.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASS_PATH=.:$JAVA_HOME/lib[root@hadoop hadoop-2.8.1]# source /etc/profile
## 3. 配置hadoop
[root@hadoop hadoop-2.8.1]# cd etc/hadoop
[root@hadoop hadoop]# vi hadoop-env.sh# The java implementation to use.
export JAVA_HOME=/opt/apps/jdk1.8.0_45
1.4.2伪分布式安装
免密登录
[root@hadoop hadoop]# ssh-keygen
[root@hadoop hadoop]# ssh-copy-id 目标IP地址
配置core-site.xml文件
<configuration>
<!-- 配置的namenode的内部通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.206.0.4:9000</value>
</property>
<!-- hadoop的内部的数据或者元数据真是的存放路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/apps/hadoop-2.8.1/hdpdata</value>
</property>
</configuration>
配置hdfs-site.xml文件
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
配置yarn-site.xml 文件
<configuration>
<!-- 配置mapreduce的洗牌算法 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置mapred-site.xml 文件
<configuration>
<!-- 配置你的mapreduce使用yarn管理 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- yarn/local/classic -->
</configuration>
启动命令
start-dfs.sh
start-yarn.sh
检测是否成功
[root@yjlyj hadoop-2.8.1]# jps
18865 DataNode
19111 SecondaryNameNode
19351 ResourceManager
18732 NameNode
19468 NodeManager
121228 Jps