hadoop
Hadoop 是Apache基金会下一个开源的分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构。
环境配置
所需软件
- java 环境,建议选择sun公司发行的java版本
- ssh必须安装,并且保证sshd一直运行,以便于用hadoop脚本管理远端hadoop守护进程
- IDEA编辑工具安装, maven安装
- hadoop安装
- 服务器搭建
安装步骤
-
java环境安装
java下载官网地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html
如图下载对应系统的JDK:
安装好之后,将其加入到环境变量
检验安装是否正确
在终端中输入java -version
-
ssh安装,我是用的win10专业版,自带ssh。其他版本自行下载即可。
-
编辑工具,这里使用的是IntelliJ IDEA 2019.1。
安装maven,maven是一种全新的项目构建方式,主要做了统一开发规范与工具和统一管理jar包;而且其还可以管理项目的整个生命周期,包括编译,构建,测试,发布,报告等等。下载地址:http://maven.apache.org/release-notes-all.html
将下载的压缩包解压,同JDK环境变量配置一样,将解压后的文件夹中bin的绝对路径添加到环境变量,如:C:\Program Files\Java\apache-maven-3.6.0\bin
检验是否安装成功
在终端中输入: mvn -v
![
](https://img-blog.csdnimg.cn/20190410130001339.PNG)
4. hadoop安装(前提安装并配置好java环境)
一. 创建hadoop用户
$ sudo useradd -m hadoop -s /bin/bash #创建hadoop用户,并使用/bin/bash作为shell
$ sudo passwd hadoop #为hadoop用户设置密码,之后需要连续输入两次密码
$ sudo adduser hadoop sudo #为hadoop用户增加管理员权限
$ su - hadoop #切换当前用户为用户hadoop
$ sudo apt-get update #更新hadoop用户的apt,方便后面的安装
二. 安装ssh,设置ssh无密码登录
$ sudo apt-get install openssh-server #安装SSH server
$ ssh localhost #登陆SSH,第一次登陆输入yes
$ exit #退出登录的ssh localhost
$ cd ~/.ssh/ #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa
输入完 $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车
其中,第一次回车是让KEY存于默认位置,以方便后续的命令输入。第二次和第三次是确定passphrase,相关性不大。
之后输入:
$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案
三. 安装hadoop
$ sudo tar -zxvf hadoop-2.6.0.tar.gz -C /usr/local #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv hadoop-2.6.0 hadoop #重命名为hadoop
$ sudo chown -R hadoop ./hadoop #修改文件权限
给hadoop配置环境变量,将下面代码添加到.bashrc文件:
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行source ~/.bashrc 使设置生效,并输入hadoop version 查看安装是否成功