spark
songwenbinasdf
这个作者很懒,什么都没留下…
展开
-
怎样理解spark中的partition和block的关系
一、hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,你的文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会有一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到、读取对应的内容。(p.s. 考虑到hdfs冗余设计,默认三份拷贝,实际上3*3=...原创 2018-03-04 09:42:57 · 1019 阅读 · 0 评论 -
第11课:彻底解析wordcount运行原理
本期内容:1. 从数据流动视角解密WordCount,即用Spark作单词计数统计,数据到底是怎么流动的。2. 从RDD依赖关系的视角解密WordCount。Spark中的一切操作皆RDD,后面的RDD对前面的RDD有依赖关系。3. DAG与Lineage的思考。依赖关系会形成DAG。1. 从数据流动视角解密WordCount(1)在IntelliJ IDEA中编写下面代码:package com...原创 2018-03-04 10:49:09 · 478 阅读 · 0 评论