Hadoop简介
1、Hadoop是什么:
Hadoop是一个开源分布式系统架构。
(1)、分布式文件系统HDFS——解决大数据存储
(2)、分布式计算框架MapReduce——解决大数据计算
(3)、分布式资源管理系统YARN
2、为什么使用Hadoop
特性
1、高扩展性、可伸缩
2、高可靠性——多副本机制,容错高
3、低成本
4、无共享架构
5、灵活,可存储任意类型数据
6、开源,社区活跃
3、Hadoop vs RDBMS
Hadoop与关系型数据库对比
4、Hadoop 生态圈
5、Hadoop架构
1.hadoop common 公共类库
2.HDFS hadoop 分布式文件系统
3.Hadoop Yarn 作业调度和资源管理框架
4.Hadoop MapReduce 基于yarn系统的大数据集并行处理技术
6、Hadoop安装
1.JDK(建议使用JDK 1.8.11)
2. tar hadoop.tar.gz(建议使用Hadoop 2.7.3)
1、解压移动
tar -zxf hadoop-2.6.0-cdh5.14.2.tar.ga
mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260
2、修改配置文件
进入配置文件目录
cd /opt/soft/hadoop260/etc/hadoop
a.首先获得jdk的环境变量位置
echo $JAVA_HOME
b、修改hadoop-env.sh
vi hadoop-env.sh
在下图位置添加jdk路径
c、修改core
vi core-site.xml
在下图位置添加如下内容
<property>
<name></name>
<value></value>
</property>
这里一共需要四组 可在esc状态下将光标移至开头然后4yy复制粘贴接下来的四行
然后移至此处按p(粘贴)
准备好后先添加地址以及端口
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.56.100:9000</value>
</property>
然后依次添加root以及group,最后整体为以下代码
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.56.101:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/soft/hadoop260/tmp</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
d、修改hdfs-site.xml
vi hdfs-site.xml
在configuration里面添加
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
e、修改mapred-site.xml
修改之前要先将临时文件拷贝
cp mapred-site.xml.template mapred-site.xml
然后在拷贝的文件中修改
添加以下内容
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
f、修改yarn配置
vi yarn-site.xml
添加以下内容
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.localhost</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
至此配置文件配置完成
3. 配置环境变量
vi /etc/profile
在最底下添加hadoop的环境变量
export HADOOP_HOME=/opt/soft/hadoop260
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
HADOOP_HOME为解压安装的路径
然后重新激活
source /etc/profile
4. 启动hadoop
hadoop namenode -format
然后进入这个界面在启动
start-all.sh
在启动过程中需要输入两次yes 并且三次输入虚拟机的密码
跳转之后就可以检测hadoop是否已经启动
在网页中输入以下网址:
http://192.168.56.101:50070
前面为本机的ip地址
如图表示已经启动完成。
至此hadoop已经安装完成。