1、Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
2、安装并配置
(1)Java 1.5.x。
java安装略。
查看java安装目录:
查看java配置文件:
vim /etc/profile
注:找不到jps命令编辑/root/.profile如下:
使得配置生效:
source /root/.profile
查看java是否安装成功:java -version
(2)保证 sshd一直运行
ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。
另:rsync是linux系统下的数据镜像备份工具。可以镜像保存整个目录树和文件系统。很容易做到爆出原理文件的权限、时间、软硬链接等。
sudo apt-get install ssh // 安装ssh
sudo apt-get install rsync // 安装rsync
sudo service ssh start // 开启SSH服务
ps -e | grep ssh // 查看SSH服务是否开启
$ ssh localhost #登陆SSH,第一次登陆输入yes
$ exit #退出登录的ssh localhost
$ cd ~/.ssh/ #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa
输入完 $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车,之后再输入:
$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost #此时就不需要密码
(3)Hadoop下载并解压
下载:http://hadoop.apache.org/releases.html
其中source download为源码下载,需要编译才可使用。Binary download为二进制下载,可直接解压安装。
解压:
tar -zxvf hadoop-3.1.3.tar.gz
解压后文件如下:
(4)配置
编辑~.bashrc,配置Hadoop如下:
export HADOOP_HOME=/home/wzh/Hadoop/hadoop-3.1.3/
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME