linux单机hadoop步骤,Hadoop单机模式环境搭建关键步骤

最新推荐文章于 2024-08-15 14:57:09 发布

谢遨隆

最新推荐文章于 2024-08-15 14:57:09 发布

阅读量211

点赞数

文章标签： linux单机hadoop步骤

Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下：

sudo apt-get install ssh

sudo apt-get install rsync

编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java安装路径。

Hadoop的集群分为三种模式：

单机模式

伪分布式模式

完全分布式模式

不管哪种模型，都需要系统能够免密码ssh设置：

$ssh localhost

看看是否需要登录本机需要密码，如果需要使用如下操作：

$ssh -keygen -t dsp -P '' -f ~/.ssh/id_dsa

$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

执行：

格式化一个新的分布式文件系统

$bin/hadoop namenode -format

启动Hadoop守护进程：

$bin/start-all.sh

浏览NameNode和JobTracker的网络接口，默认地址分别为：

NameNode http://localhost:50070

JobTracker http://localhost:50030

将输入文件copy到分布式文件系统：

$bin/hadoop fs -put conf input

运行示例程序；

$bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

查看输出文件：

$bin/hadoop fs -get output output

$cat output/*

或者在分布式文件系统上查看输出文件：

$bin/hadoop fs -cat output/*

停止Hadoop守护进程：

$bin/stop-all.sh

完全分布式集群：

通常选择集群中的一台机器作为NameNode，另外一台不同的机器作为JobTracker，这些被称为Master，余下的机器即作为DataNode，又作为TaskTracker，这些被称为Slaves。

在conf/slaves文件中列出所有slaves的主机名称或者Ip地址，一行一个。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。