Spark配置的一点小结

1 篇文章 0 订阅
1 篇文章 0 订阅

这两天配置Hadoop和Spark真是死去活来。 网上提供的做法都挺详尽,但是有些细节基本所有人都选择性忽略掉~ 特此捡起来,权当个记录



1. Spark是什么?安装流程是什么样的?

Spark是一个强大的分布式计算引擎。他和Hadoop并不是平行关系:他的基石就是Hadoop MapReduce架构,在此基础上加以改进,并支持Scala来做更为便捷和有美感(Java迷别打我)的编程。

配置分布式系统有4种方案

  • 要么你就弄个不分布式的单点系统
  • 要么你就买几个电脑弄个真正的分布式系统
  • 要么你就骗一骗电脑弄个伪分布式系统

怎么只有3个?伪分布式系统又可以有两种做法:

  • 用虚拟机(e.g: VMWare)实现
  • 用单机实现
由于胖丁已经分区装了个Ubuntu16双系统玩caffe,于是就只能用单机实现伪分布式咯。

网上的流程具体总结如下:
  1. 安装系统,Ubuntu和CentOS公说公好婆说婆好~ 大家自行选择
  2. 建个专门做hadoop的PID,个人觉得没有必要,不过我还是这么做了(毕竟另一个PID还有个难缠的caffe,最好别撞在一起)
  3. 把Java,Scala安装配置好,特别是~/.bashrc,后面hadoop和spark也要分别配置好~
  4. 下载Hadoop和Spark,分别解压缩到/usr/local/hadoop和/usr/local/spark里面
  5. 配置Hadoop里面的 /usr/local/hadoop/etc/hadoop里面的很多xml和一个env文件(伪分布式不用碰masters和slaves两个文件)
  6. 配置/etc/hosts文件
  7. 运行hadoop的start-all.sh, 再用jps查看,有jps加上namenode,datanode,nodemanager,resourcemanager,secondarynamenode 你就成功了
  8. 配置Spark里面的 /usr/local/spark/conf里面的env文件
  9. 运行spark的start-all.sh, 再用jps查看,原基础上多了Master和Worker你就成功了
关于上面的第6点我要重点拿出来说。无论是伪分布式还是真实分布,我们都要在里面设置master/slave和他们对应的地址。小白的我之前都是看到网上写什么我就抠什么ip地址塞进去,直到最后才发现:要根据你的设备的真实IP地址来修改的。

假如是伪分布式地址,则所有master和slave都用同一个IP,就是你主机的IP(用ifconfig可以查看);
假如是真分布的,就用真实的IP地址。


正常说,内网的IP地址都是198.168.xxx.xxx



还有要注意,Hadoop2.x之后就没有JobTracker和TaskTracker这东西了,之前让我一顿好找。网上很多教程都过时了,慎看~


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值