大数据
bu6_buf
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Shuffle
触发 Shuffle 的操作 在 Spark 作业过程什么时候产生 Shuffle ? Shuffle描述着数据从map task输出到reduce task输入的这段过程。 通常shuffle分为两部分:shuffle write:map任务写上游计算产生的中间数据。shuffle read:reduce任务读map任务产生的中间数据,用于下游计算。  原创 2020-05-17 00:52:22 · 280 阅读 · 0 评论 -
Spark Core
Spark的架构 Spark 集群的节点? master、worker Spark 采用了分布式计算中的Master-Slave模型。Master作为整个集群的控制器,负责整个集群的正常运行;Worker是计算节点,接受主节点命令以及进行状态汇报。 Client作为用户的客户端负责提交应用。 Driver 的功能是创建 SparkContext, 负责执行用户写的原创 2020-05-17 00:42:49 · 221 阅读 · 0 评论 -
HDFS 的架构和读写流程
HDFS 的架构 NameNode :负责文件元数据信息的操作以及处理客户端的请求。 DataNode:负责存储实际的数据块,执行数据块的读/写操作。 SecondaryNameNode:保存 namenode 中对 HDFS metadata 的信息的备份,并减少 namenode 重启的时间。 HDFS读写数据流的流程 文件写入 1、客户端对 DistributedFileSystem 对象调用create原创 2020-05-09 23:27:25 · 834 阅读 · 0 评论 -
HBase 的读写流程
HBase 建表由Master处理 一、建表的请求是通过RPC的方式由Client发送到Master。(建表时应该定义合理的Schema,设置合理的Region数量 —— 预分区,通过预先创建一些空的Region,这样当数据写入HBase时,会按照Region分区情况,在集群内做数据的负载均衡,加快批量写入速度。) 二、Master侧接收到Clien...原创 2020-05-08 00:26:38 · 264 阅读 · 0 评论 -
MapReduce作业流程
MapReduce作业流程图HDFS ——> InputFormat 阶段InputFormat ——> Split 阶段Split ——> RecordReader 阶段RecordReader ——> Map 阶段Map ——> Partition 阶段Partioner ——> spill(sort & Combiner) 阶段spill——>...原创 2020-04-13 05:45:46 · 372 阅读 · 0 评论
分享