1.什么是Apache Hadoop?
Apache Hadoop项目为可靠,可扩展的分布式计算开发开源软件。
2.Apache Hadoop项目包含哪些模块?
- Hadoop Common:支持其他hadoop模块的常用工具
- HDFS(Hadoop Distributed File System):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问
- Hadoop YARN:作业调度和集群资源管理的框架
- Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统
3.Apache的其他Hadoop相关项目包括哪些?
1.Avro:数据序列化系统
2.HBase:可扩展的分布式数据库,支持大型表格的结构化数据存储
3.Hive:提供数据汇总和即查询的数据仓库基础架构
4.Spark:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算
5.ZooKeeper:分布式应用程序的高性能协调服务
4.Hadoop伪分布式集群搭建过程
本机条件:虚拟机VMware/CentOS6.5/jdk-8u162-linux-x64/hadoop-2.7.3
说明:因为Hadoop是Apache旗下的开源项目,并且底层是java,所以需要安装jdk
注:搭建hadoop集群是要给普通用户使用,使用所以我们应该创建普通用户,不应为了图方便使用root用户
- 通过外部挂载或者使用SSH工具,上传hadoop、jdk软件至~/soft(普通用户工作路径下的soft,需要手动创建)
$>cp jdk-8u162-linux-x64.tar.gz ~/soft
$>cp hadoop-2.7.3.tar.gz ~/soft
2.加压相关软件
$>tar -zxvf jdk-8u162-linux-x64.tar.gz
$>tar -zvxf hadoop-2.7.3.tar.gz
3.创建软链接(为了配置环境变量的时候方便)
$>ln -s jdk1.8.0_162/ jdk
$>ln -s hadoop-2.7.3/ hadoop
4.修改环境变量(只修改当前用户的环境变量)
$>cd ~
$>vi .bash_profile
注:桌面版本也可以使用gedit
在文件最后追加以下指令:
#jdk install
export JAVA_HOME=/home/hyxy/soft/jdk
export PATH=$JAVA_HOME/bin:$PATH
#hadoop install
export HADOOP_HOME=/home/hyxy/soft/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
刷新指令:
$>source .bash_profile
注:刷新完之后,只有当前会话可用,建议reboot(重启)
5.配置SSH
a.修改主机名(hostname),如果你的主机名称为master可以不用修改
$>su
$>vi /etc/sysconfig/network
修改内容:【HOSTNAME=master】
b.修改hosts文件
$>su
$>vi /etc/hosts
追加内容:【ip 主机名键值对】
c.reboot(重启)
d.生成密钥
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
【说明:-t:设置生成密钥的算法,采用rsa算法 -P:设置密码,默认为空 -f:设置密钥生成的文件位置,~/.ssh】
e.生成认证库
$>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
f.修改认证库(authorized_keys)的权限为600
$>chmod 600 ~/.ssh/authorized_keys
g.ssh master
无密登录成功了!!!第一次登录需要输入密码这是正常情况
6.配置hadoop
a.找到hadoop的配置路径:
cd $HADOOP_HOME/etc/hadoop
b.修改core-site.xml配置文件,在configuration标签中添加:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
c.修改hdfs-site.xml配置文件,在configuration标签中添加:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
d.修改hadoop-env.sh中的JAVA_HOME变量:
export JAVA_HOME=/home/hyxy/soft/jdk
e.格式化HDFS
$>hdfs namenode -format
f.开启hadoop守护进程
$>start-dfs.sh
g.在linux系统上的浏览器上输入:http://master:50070,出现:
并且查看Live Node :为1,表示成功了!!!
5.怎么在虚拟机外部浏览器,访问:http://ip(虚拟机的实际ip):50070
1.关闭防火墙
$>su
$>chkconfig iptables off
$>chkconfig ip6tables off
2.关闭selinux
$>su
$>vi /etc/sysconfig/selinux
修改内容:【SELINUX=disabled】