这里总结了看了这两本书之后的问题,也可以看出来,几乎什么都没看懂的样子,之后的几天主要任务就是分析解决这些问题,估计这些问题解决了就可以算是真正入门Spark了吧。
ps:后面的数字是问题所在的页数
《spark快速大数据分析》
第一章
- 到底什么是HDFS
- spark和hadoop的关系
- spark1.x和spark2.x有什么区别
第二章
- 这些shell是怎么能操纵spark的
- 驱动器程序(Driver program)就是Driver吗
- 如何在程序里用spark
- 亲自写一个单词统计的scala程序怎么样
- 什么是sbt
- 什么是maven
第三章
- 节点是什么,是一台机器还是一群机器
- 随便给一个操作能如何分辨是行动操作还会说转化操作
- persist方法把RDD缓存到哪了(内存?)
- 怎么把函数传给spark
- lambda是什么意思
- reduce到底怎么用
- aggregate()这种带什么初始值的有什么用,另外它的函数是什么意思35
memoryManager
第四章
- 为什么要单独讲键值对RDD
- pagerank是怎么实现的57
第五章
- 具体是怎么读的文件,从哪读(HDFS吗?)
- sequenceFile文件从哪来的
- spark是怎么通过Hadoop读文件的73
- spark的文件系统到底是什么78
- spark从数据库中读数据是什么意思,为什么会有很多种连接81
第六章
- 分区是怎么具体体现功能的94
第七章
- driver,master,worker,executor和application的区别102
- maven、sbt是干嘛的107
- 集群管理器和spark的关系是什么 112
- spark到底是在哪上面运行 112
- spark是个软件吗,集群管理器是软件吗
第八章
- 哪些网页能看哪些信息 131
- 内存管理 137
memoryManager
《深入理解Spark-核心思想与源码分析》
第一章
- spark-shell能干嘛 7
- 如何才能(用eclipse)调试spark代码
第二章
- MRv1和MRv2的区别
- Spark程序的运行过程是什么 24
- RDD是怎么计算的 25
第三章
- SparkContext初始化的步骤
- SparkContext的作用是什么
- SparkEnv与SparkContext的关系
- ActorSystem的作用到底是啥
- mapOutputTracker的作用
- 30页哪些都是干嘛的
- shuffle到底是什么
- metricsSystem到底的输入输出是什么
- SparkUI就是网页显示的哪些内容吗 42
- 监听器(listener)到底是什么东西 43
- tab和page的关系 50
- 任务调度器TaskScheduler的功能 55
- DAGSheduler的功能 以及和它有关的方法和类 57
- ClassLoader是什么 64
第四章
- BlockManager的组成部分 80
- 这些乱七八糟组件的关系 82
- 什么是Netty 83
- BlockManagerMasterActor的作用,位置,使用方法 90
- DiskStore和DiskBlockManager的关系是什么 94
- 也就是XXXStore和XXXBlockManager的关系是什么
- Array,Bytes和Iterator的区别是什么
- 展开到底是什么意思
- Tachyon是什么东西和这些存储器有什么关系
- BlockManager和这些东西的关系是什么
- MemoryStore就是内存还是表示对内存读写的类
- BlockManager这些方法和XXXStore有什么关系 114
- 缓存管理器(CacheManager)既然是缓存到内存,为啥还要有这个 130
- 块索引Shuffle管理器是什么鬼 135
- Shuffle内存管理器和其他的内存管理器有什么区别
- 内存的模型到底是什么样的
第五章
- 任务的提交与执行的步骤是什么
- 广播Hadoop配置的作用
- 依赖Dependence是什么
- reduceByKey的功能是什么
- 各种Dependence都是怎么出现的
- wordcount是怎么完成的,函数是怎么实现的
- stage划分的具体依据是什么
- spark里的Map是什么意思。
- reviveOffers方法的作用是什么 168
- LocalBackend方法的意思
- resourceOffers是用来干嘛的
- 为什么一看到Taskbulabula就头疼
- 本地化是什么意思 173
- 任务还原是什么意思,为啥要还原 177
- ShuffleMapTask到底是干嘛的 178 184
- SortShuffleManager的功能是什么,函数名的意思 179
- DagScheduler的作用的什么 183
- ShuffleMapTask和ResultTask的区别 185
第六章
- 为什么叫迭代计算,iterator又是什么
- RDD管道是什么
- 什么是Shuffle 192
- 193那个图到底什么意思
- 做map操作的时候是每个Executor都做一样的操作吗,不同是Executor对应的是不同的分区还是可以对应相同的分区。
- Executor就是个进程吗还是个线程
- AppendOnlyMap是什么,怎么看见就恶心 198
- 采样是什么意思,从哪采样 199
- SizeTrackingPairBuffer是什么鬼 201
- 持久化理论上是什么意思 204
- ShuffleRDD和普通的RDD的区别是什么
- Shuffle不是一个操作吗为啥还有ShuffleID
- reduce端和map端还不是一个吗,这个端是指不同的计算机吗还是什么 219
第七章
- 这里的localactor的作用是什么 225
- sparkDeploy SchedulerBackend是干嘛的 226
- local ,local-cluster,Standalone还有yarn和Mesos的区别是什么
- 订阅RemotingLifecycleEvent能干嘛 229
- 选举是怎么实现的 231
- CoarseGrainedSchedulerBackend的作用是什么 236
- 上边那个和前面讲的CoarseGrainedExecutorBackend的关系
- CoarseGrainedExecutorBackend在哪讲的
- APPClient的作用是什么 237
- 资源调度分配,万一不够用怎么办 243
- jdk自带的工具VisualVM在哪 247,看这个有什么意思
- 故障恢复的原理是什么
- ZooKeeper是什么东西
第八、九、十、十一章
- 这个我还要看吗
拾遗
- driver、master和application的区别
- spark怎么和tensorflow联系到一块的(tensorflow是怎么用spark的)
- Executor和worker具体是怎么设置的,在哪设置的
- 怎么用eclipse看spark源码
- 怎么用eclipse跑spark程序
- JVM是什么,与Spark有什么关系
- spark1.x和spark2.x的区别是什么
- master可以是任意一台机器吗
- yarn是装在哪里的
- master通过yarn控制Worker的吗
- 每台机器都要配置yarn的文件吗
- 伪分布式运行的结果和真正集群的结果是一样的吗?包括网页的显示之类的