大数据
记录大数据生态学习中的点点滴滴
liangkw16
积极工作,快乐生活
展开
-
Spark RDD分区知识总结
Spark RDD分区知识总结 1. RDD 1.1 RDD定义 RDD(Resilient Distributed Dataset)——弹性分布式数据集,是Spark中最基本的数据抽象 不可变(只读) 分区 自动容错 位置感知调度 可伸缩 1.2 RDD属性 (1)一组分区(Partition),即数据集的基本组成单位。对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Co原创 2020-05-25 14:55:30 · 869 阅读 · 0 评论 -
五节点的Hadoop HA集群搭建
Hadoop高可用集群搭建 1 集群规划 1.1 节点(虚拟机) 主机名 IP 操作系统 安装软件 vm1 10.211.55.11 Centos 7 JDK,Hadoop vm2 10.211.55.12 Centos 7 JDK,Hadoop vm3 10.211.55.13 Centos 7 JDK,Hadoop,Zookeeper vm4 10.211.55.14 Centos 7 JDK,Hadoop,Zookeeper vm5 10.211.55.15 Cento原创 2020-05-13 17:32:36 · 556 阅读 · 1 评论