学习Hadoop笔记之一

5 篇文章 0 订阅
4 篇文章 0 订阅

学习的时候出现了几个问题,然后想想把记录了下来,能力有限,多多见谅。
1.关于关闭防火墙的问题:
a) 因为虚拟机是要做服务器 内网链接 防火墙一般全部关闭 在很多时候不关闭防火墙会出现很多问题(端口被占用的问题!)所以要关闭防火墙!
2.关于主机网页登陆不上虚拟机的apache服务的时候,比如Tomact。
如果能Ping通的话,一般就是防火墙的问题,a) 必须要关闭虚拟机的防火墙 service iptables stop 然后在开启apache服务 即可访问。在这里注意下次登录的时候,防火墙还是默认开启的,所以需要设置。
Linux关闭防火墙命令
1) 永久性生效,重启后不会复原
开启:chkconfig iptables on
关闭:chkconfig iptables off
2) 即时生效,重启后复原
开启:service iptables start
关闭:service iptables stop
3.关于Zookeeper
zookeeper 在安装集群的时候 必须是奇数台 然后必须配好通信 myid 等 ,在eclipse中写业务逻辑的时候 在连接的时候如果出现错误 是连接的时候必须要和之前配置zookeeper的配置保持一致 如果在一致的情况下 在出现错误 必须去主机的hosts文件中注册服务信息。
.步骤
1.在eclipse中的连接

private static final String connectString="192.168.150.110:2181,192.168.150.120:2181,192.168.150.130:2181"

2.zoo.cfg的配置文件中
(https://img-blog.csdn.net/20170323211835757?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvUGFuX01hcnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
3.主机的hosts文件中
(https://img-blog.csdn.net/20170323211959758?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvUGFuX01hcnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
在跑Wordcount的程序时有时候会提示系统时间不同步
就是同步虚拟机 和主机的时间 可以在虚拟机上面更改。保持一致即可。
所有的机器全部同步时间。
.初始化工作目录结构
hadoop namenode –format 只是初始化namenode 并且有一个工作目录,主要是存元数据
datanode 的工作目录是datanode启动的时候生成的工作目录。
关于DataNode不被namenode识别的问题?
namenode在被format初始化的时候 会形成两个标志;
blockpoolId
clusterId
新的DataNode加入时,会获取这个两个标志作为自己工作目录中的标示,一旦namenode从新格式化后,namenode的身份标示已经改变,如果DataNode持有原来的ID,就不回被namenode识别。删除DataNode的工作目录即可。
关于副本数的问题。
副本数有客户端的参数dfs.repulication决定。优先级(conf.set>自定义配置文件>jar hdfs-default.xml)只是对客户端有效,客户端觉得的。集群不管。
HDFS上传数据是的选择策略
1.先考虑跟client最近的(同一个机架)
2.第二个副本在考虑跨机架挑选一个DataNode 增加副本的可能性
3.第三个副本和第一个副本同机架另外挑选一台DataNode存放
MapReduce
1. 分布式的运行程序往往需要至少两个阶段
2. 第一个阶段的task并发实例各司其职 各自为政 互不干扰,完全并行(Map阶段,实例是maptask)
3. 第二个阶段的task并发实例互不相干,但是他们的数据依赖于上一个阶段的所有task并发实例的输出。(Reduce阶段,实例是reducetask)
4. MP框架的编程模型 只能包含一个Map阶段 和一个Reduce 阶段,如果用户的业务逻辑非常复杂,那就只能来多个mapreduce 程序 串行 运行。
思想:
读数据 –>按行处理–>按空格切分行内单词–>hashmap(单词 value+1)–>按照hashmap首字母范围分成若干个hashmap–>将若干个hashmap 分别传送给若干个reducetask

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值