HADOOP的学习笔记（第一期）

最新推荐文章于 2024-05-01 14:15:11 发布

kobe_lzq

最新推荐文章于 2024-05-01 14:15:11 发布

阅读量1.2k

点赞数

分类专栏： hadoop 文章标签： hadoop mapreduce jdk jobs centos linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kobe_lzq/article/details/7958160

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

hadoop分布式包括mapreduce以及hdfs文件系统，适合处理大文件，不是和处理多个小文件。

其中分为NameNode 与DataNode，可以有多个DataNode，一个NameNode新版本以后会有两个NameNode防止NameNode down掉。

JobTracker 接受作业提交，监控和控制作业的运行，负责任务分发到TaskTracker 。

TaskTracker控制Map/Reduce任务中当前节点的运行\

nn jobtracker master

dn jobtracker slave

开始慢慢学习hadoop，就当是自己学习的笔记吧。以后也方便看。

首先需要准备一个环境，我准备的环境是linux，这样既可以学习linux又可以学习hadoop。我的linux用的是centos，大家可以根据自己的个人喜好。

环境上需要安装，jdk、以及ssh，因为hadoop使用到jdk的，所以需要进行提前安装。都准备完毕以后可以进入正轨了。

1.设置ssh免密码登陆，我的情况是单机情况，多机情况差不多。

cd /root/.ssh

ssh-keygen -t rsa -P ' ’ -f ~/.ssh/id_rsa 回车中途有可能需要输入yes，完成以后再.ssh目录中多处了几个文件：id_rsa、id_rsa.pub

然后将id_dsa.pub文件 cp到/tmp目录下：cp /root/.ssh/id_rsa.pub /tmp

如果是多台机器则同时需要copy其他的机器之上：scp /root/.ssh/id_rsa.pub 192.168.1.54:/tmp

最后执行：cat /tmp/id_rsa.pub >> /root/.ssh/authorized_keys >>追加

完成以后进行测试 ssh localhost看是否还需要密码，如果不需要密码，ok

2.配置jdk，修改hadoop配置文件，指定jdk的安装路径：

首先查看java的环境变量配置：env | grep JAVA 然后copy

进入到hadoop目录。我用的hadoop版本是0.20 cd hadoop-0.20.2/conf/

vi hadoop-env.sh

export JAVA_HOME=/home/app/jdk1.6.0_30

下面是配置hadoop的单机环境：

3.f修改hadoop核心的配置文件core-site.xml配置hdfs的地址和端口号：

vi conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

4.修改hadoop中hdf配置，修改replication，控制复制数量，我的理解的意思是互相备份

vi conf/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

5.修改hadoop中mapreduce的配置文件，配置的是jobtrack的地址和端口

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

6.配置完成以后格式化文件系统：

bin/hadoop namenode - format

7.启动hadoop

bin/start-all.sh

8.jps查看情况或者使用 bin/hadoop dfs -ls /

9.同样也可以startx 进入图形化界面，用浏览器查看hdfs与jobtracker的情况。

http://localhost:50030 mapreduce 的 web 界面
http://localhost:50070 hdfs 的web 界面

可以查看hdfs中的文件情况，点击第一幅图中的browse the filesystem，也就是50070中的。

我们可以新建一个文件夹以及放入一些文件来做一会的测试：

通过

bin/hadoop fs -mkdir /input 创建一个input目录。

bin/hadoop fs -put *.sh /input 在hadoop中的bin目录中执行，将此目录中的所有.sh文件放到文件系统的/input文件夹下

然后我们用hadoop自带的一个例子进行测试：wordcount

bin/hadoop jar hadoop-0.20.2-examples.jar wordcount /input /output

执行完成以后我们同样可以去50070去看，这时会多了一个output目录里面就是放的统计结果。

同样可以去50030看看job的执行情况，执行当中会有一个run jobs，执行完成就会出现一个complated jobs 可以看分析情况。

至此，hadoop的入门单机环境算是搞了。一遍后即继续学习。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HADOOP的学习笔记（第一期）

hadoop分布式包括mapreduce以及hdfs文件系统，适合处理大文件，不是和处理多个小文件。其中分为NameNode 与DataNode，可以有多个DataNode，一个NameNode新版本以后会有两个NameNode防止NameNode down掉。JobTracker 接受作业提交，监控和控制作业的运行，负责任务分发到TaskTracker 。TaskTracker控制M
复制链接

扫一扫

专栏目录

kobe_lzq CSDN认证博客专家 CSDN认证企业博客

码龄15年

49: 原创

25万+: 周排名

100万+: 总排名

43万+: 访问

: 等级

2912: 积分

32: 粉丝

12: 获赞

45: 评论

15: 收藏

私信

关注

热门文章

分类专栏

Ajax 1篇
db2
hibernate框架 4篇
ibatis
java 5篇
java web 3篇
Junit
MySQL 3篇
Oracle 4篇
Spring 3篇
Struts2
struts框架 2篇
Weblogic
XML 1篇
hadoop 5篇
linux 6篇
centos 3篇
svn 3篇
redis 3篇

最新评论

Apache2+Tomcat7+mod_jk2.2.3集群负载均衡配置(目前最强悍)
liuyuanqiang2010: 楼主，弱弱问句，这个文件哪来的？这行不报错吗？LoadModule jk_module modules/mod_jk-1.2.31-httpd-2.2.3.so
在centos中将apache httpd 服务加入系统服务
看小雪: [root@localhost bin]# chkconfig --add httpd httpd 服务不支持 chkconfig
Servlet跳转到jsp页面的几种方法
qq_22022869: 写的不详细， request.getRequestDispatcher("/WEB-INF/a.jsp").forward(request.response);
关于hibernate中set、list、map标签的用法与配置含义。
SuperThreeX: name不是数据库表对应的名字，是一方对应的List集合属性的名字！
“ORA-12541:TNS:无监听程序”错误
a124314141: 嗯工作需要参考了本文档。不过提出另一种可能，我也是报这个错误。但是不设置 ORACLE_SID 代码：unset ORACLE_SID;然后再检查一下LD_LIBRARY_PATH的值。注意是追加写入而不是直接赋值。例如export LD_LIBRARY_PATH=$ORACLE_HOME/lib:$LD_LIBRARY_PATH; 这样再重启一下，就基本能连上了。sqlplus name/pwd@servicename

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。