关于Spark学习的问题总结

最新推荐文章于 2024-03-04 17:36:04 发布

FishSeeker

最新推荐文章于 2024-03-04 17:36:04 发布

阅读量1k

点赞数 1

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/FishSeeker/article/details/60470010

版权

Spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

这里总结了看了这两本书之后的问题，也可以看出来，几乎什么都没看懂的样子，之后的几天主要任务就是分析解决这些问题，估计这些问题解决了就可以算是真正入门Spark了吧。
ps:后面的数字是问题所在的页数

《spark快速大数据分析》

第一章

到底什么是HDFS
spark和hadoop的关系
spark1.x和spark2.x有什么区别

第二章

这些shell是怎么能操纵spark的
驱动器程序（Driver program）就是Driver吗
如何在程序里用spark
亲自写一个单词统计的scala程序怎么样
什么是sbt
什么是maven

第三章

节点是什么，是一台机器还是一群机器
随便给一个操作能如何分辨是行动操作还会说转化操作
persist方法把RDD缓存到哪了（内存？）
怎么把函数传给spark
lambda是什么意思
reduce到底怎么用
aggregate()这种带什么初始值的有什么用，另外它的函数是什么意思35
memoryManager

第四章

为什么要单独讲键值对RDD
pagerank是怎么实现的57

第五章

具体是怎么读的文件，从哪读（HDFS吗？）
sequenceFile文件从哪来的
spark是怎么通过Hadoop读文件的73
spark的文件系统到底是什么78
spark从数据库中读数据是什么意思，为什么会有很多种连接81

第六章

分区是怎么具体体现功能的94

第七章

driver,master,worker,executor和application的区别102
maven、sbt是干嘛的107
集群管理器和spark的关系是什么 112
spark到底是在哪上面运行 112
spark是个软件吗，集群管理器是软件吗

第八章

哪些网页能看哪些信息 131
内存管理 137
memoryManager

《深入理解Spark-核心思想与源码分析》

第一章

spark-shell能干嘛 7
如何才能（用eclipse）调试spark代码

第二章

MRv1和MRv2的区别
Spark程序的运行过程是什么 24
RDD是怎么计算的 25

第三章

SparkContext初始化的步骤
SparkContext的作用是什么
SparkEnv与SparkContext的关系
ActorSystem的作用到底是啥
mapOutputTracker的作用
30页哪些都是干嘛的
shuffle到底是什么
metricsSystem到底的输入输出是什么
SparkUI就是网页显示的哪些内容吗 42
监听器（listener）到底是什么东西 43
tab和page的关系 50
任务调度器TaskScheduler的功能 55
DAGSheduler的功能以及和它有关的方法和类 57
ClassLoader是什么 64

第四章

BlockManager的组成部分 80
这些乱七八糟组件的关系 82
什么是Netty 83
BlockManagerMasterActor的作用，位置，使用方法 90
DiskStore和DiskBlockManager的关系是什么 94
也就是XXXStore和XXXBlockManager的关系是什么
Array，Bytes和Iterator的区别是什么
展开到底是什么意思
Tachyon是什么东西和这些存储器有什么关系
BlockManager和这些东西的关系是什么
MemoryStore就是内存还是表示对内存读写的类
BlockManager这些方法和XXXStore有什么关系 114
缓存管理器(CacheManager)既然是缓存到内存，为啥还要有这个 130
块索引Shuffle管理器是什么鬼 135
Shuffle内存管理器和其他的内存管理器有什么区别
内存的模型到底是什么样的

第五章

任务的提交与执行的步骤是什么
广播Hadoop配置的作用
依赖Dependence是什么
reduceByKey的功能是什么
各种Dependence都是怎么出现的
wordcount是怎么完成的，函数是怎么实现的
stage划分的具体依据是什么
spark里的Map是什么意思。
reviveOffers方法的作用是什么 168
LocalBackend方法的意思
resourceOffers是用来干嘛的
为什么一看到Taskbulabula就头疼
本地化是什么意思 173
任务还原是什么意思，为啥要还原 177
ShuffleMapTask到底是干嘛的 178 184
SortShuffleManager的功能是什么，函数名的意思 179
DagScheduler的作用的什么 183
ShuffleMapTask和ResultTask的区别 185

第六章

为什么叫迭代计算，iterator又是什么
RDD管道是什么
什么是Shuffle 192
193那个图到底什么意思
做map操作的时候是每个Executor都做一样的操作吗，不同是Executor对应的是不同的分区还是可以对应相同的分区。
Executor就是个进程吗还是个线程
AppendOnlyMap是什么，怎么看见就恶心 198
采样是什么意思，从哪采样 199
SizeTrackingPairBuffer是什么鬼 201
持久化理论上是什么意思 204
ShuffleRDD和普通的RDD的区别是什么
Shuffle不是一个操作吗为啥还有ShuffleID
reduce端和map端还不是一个吗，这个端是指不同的计算机吗还是什么 219

第七章

这里的localactor的作用是什么 225
sparkDeploy SchedulerBackend是干嘛的 226
local ,local-cluster,Standalone还有yarn和Mesos的区别是什么
订阅RemotingLifecycleEvent能干嘛 229
选举是怎么实现的 231
CoarseGrainedSchedulerBackend的作用是什么 236
上边那个和前面讲的CoarseGrainedExecutorBackend的关系
CoarseGrainedExecutorBackend在哪讲的
APPClient的作用是什么 237
资源调度分配，万一不够用怎么办 243
jdk自带的工具VisualVM在哪 247，看这个有什么意思
故障恢复的原理是什么
ZooKeeper是什么东西

第八、九、十、十一章

这个我还要看吗

拾遗

driver、master和application的区别
spark怎么和tensorflow联系到一块的（tensorflow是怎么用spark的）
Executor和worker具体是怎么设置的，在哪设置的
怎么用eclipse看spark源码
怎么用eclipse跑spark程序
JVM是什么，与Spark有什么关系
spark1.x和spark2.x的区别是什么
master可以是任意一台机器吗
yarn是装在哪里的
master通过yarn控制Worker的吗
每台机器都要配置yarn的文件吗
伪分布式运行的结果和真正集群的结果是一样的吗？包括网页的显示之类的

FishSeeker

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录