Hadoop
记录Hadoop学习的点点滴滴
liangkw16
积极工作,快乐生活
展开
-
Spark RDD分区知识总结
Spark RDD分区知识总结1. RDD1.1 RDD定义RDD(Resilient Distributed Dataset)——弹性分布式数据集,是Spark中最基本的数据抽象不可变(只读)分区自动容错位置感知调度可伸缩1.2 RDD属性(1)一组分区(Partition),即数据集的基本组成单位。对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Co原创 2020-05-25 14:55:30 · 885 阅读 · 0 评论 -
五节点的Hadoop HA集群搭建
Hadoop高可用集群搭建1 集群规划1.1 节点(虚拟机)主机名IP操作系统安装软件vm110.211.55.11Centos 7JDK,Hadoopvm210.211.55.12Centos 7JDK,Hadoopvm310.211.55.13Centos 7JDK,Hadoop,Zookeepervm410.211.55.14Centos 7JDK,Hadoop,Zookeepervm510.211.55.15Cento原创 2020-05-13 17:32:36 · 577 阅读 · 1 评论