目录
Hadoop集群搭建的步骤
1.设置IP地址
2.配置host文件(写上集群里所有的机器及其对应的IP)
3.关闭防火墙
4.配置免密码登陆SSH
5.安装JDK
6.安装Hadoop
7.配置文件:hdfs-site.xml、mapred-site.xml、yarn-site.xml、core-site.xml、hadoop-env.sh
Spark提交到Yarn上的过程
1.将代码打包
2.通过Spark submit提交到Yarn上运行
3.接下来就是以yarn为资源管理器来运行Spark程序,具体过程可以参考我写的这篇博客。
Hadoop杀死一个job
1.首先查看job id
hadoop job -list
2.通过id删除job
hadoop job -kill jobID
python-openCV的颜色空间转换
img1 = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
后面是要转化的目标
RDD的特点
1.弹性的,也就是容错性(依赖,checkpoint)
2.不可变性,也就是只读
3.是一个分区集合
4.分布式的,分布在很多节点上
5.持久化,支持将会被重用的 RDD 缓存 ( 如 in-memory 或溢出到磁盘 )
6.批量操作