Linux下单节点伪分布式Hadoop的配置

最新推荐文章于 2022-07-29 14:22:59 发布

市井牛虻

最新推荐文章于 2022-07-29 14:22:59 发布

阅读量547

点赞数

分类专栏：大数据开发文章标签：数据 hadoop

本文链接：https://blog.csdn.net/u013014440/article/details/47286689

版权

大数据开发专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、安装JDK
sudo apt-get install JDK版本

2、配置JDK环境
sudo vim /etc/profile
在文件中添加一下内容：
export JAVA_HOME=JDK安装目录
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/lib:$JRE_HOME/lib:$PATH
添加完之后保存退出，敲入命令：
sudo source /etc/profile

3、设置SSH
安装SSH
sudo apt-get install openssh-server
配置免密码登录本机
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
检验配置：输入ssh localhost

4、安装Hadoop
去官网下载Hadoop压缩包并解压
chown -R hadoop:hadoop hadoop-1.2.1(文件夹名)

(1)配置Hadoop环境变量：

sudo vim /etc/profile
添加以下内容：
export HADOOP_HOME=Hadoop目录
export PATH=$PATH:$HADOOP_HOME/bin
保存退出,运行sudo source /etc/profile

(2)配置Hadoop环境变量文件vim hadoop/conf/hadoop-env.sh
添加：export JAVA_HOME=JDK安装目录

(3)配置Hadoop的核心文件/hadoop/conf/core-site.xml
在<configuration></configuration>之间添加以下内容
//这里配置的是HDFS的地址和端口号
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

//这是hadoop中HDFS的配置，配置的备份方式默认为3，在单机版的为
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

//这里的root1是我的用户名，你需要将那个修改成你的用户名
<property>
<name>hadoop.tmp.dir</name>
<value>/home/root1/tmp</value>
</property>

(4)配置 Hadoop 中 MapReduce 的配置文件 mapred-site.xml
//这是hadoop中MapRreduce的配置文件，配置的是JobTracker地址和端口
在<configuration></configuration>之间添加以下内容：
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>

5、Hadoop的使用

（1）启动hadoop之前先格式化hadoop的文件系统HDFS，进入hadoop文件夹，输入下面的命令：

bin/hadoop namenode -format

（2）启动hadoop

输入命令：bin/start-all.sh(全部启动)

（3）启动后输入 jps

若成功，会看到namenode,secondarynamenode,datanode,jobtracker和tasktracker,jps6个进程。

（4）验证是否成功安装hadoop

打开浏览器
http://localhost:50030 (MapReduce的Web页面)
http://localhost:50070 （HDFS的Web页面）
（5）关闭Hadoop：bin/stop-all.sh

6、运行程序检测
跑一个Hadoop中自带的WordCount程序，来体验一把
步骤如下（我在自己平台上的，读者可仿照实验）：
（1）准备一个文本文件
首先我在桌面，新建了一个空白文档 test ，在里面输入一段话，或是几一些什么单词什么的，保存。
（2）将文本文件上传到 dfs 文件系统中的 input 目录下，打开命令行，进入到安装 hadoop 的文件夹下，然后输入如下
bin/hadoop dfs -copyFromLocal /home/long/桌面/test input
（注：如果 dfs 中不包含 input 目录的话就会自动创建一个）
（3）然后在命令行中输入如下命令，执行 WordCount 程序
bin/hadoop jar hadoop-examples-1.2.1.jar wordcount input output
（注：因为这个程序是 Hadoop 安装包里面自带的，就在 hadoop-examples-1.2.1.jar 中，后面的数字因为版本号的不同而不同，后面的 input 代表输入文件夹， output 代表输出文件夹，系统输出时会自动创建）
读者如果这个执行成功了，就会发现有很多输出信息，从屏幕上显示，当程序运行结束后。
（4）察看结果在命令行里面输入
bin/hadoop dfs -cat output/part-r-00000
现在你就可以看见自己刚才输入文本里面的单词计数了。