关于Spark学习的问题总结

这里总结了看了这两本书之后的问题,也可以看出来,几乎什么都没看懂的样子,之后的几天主要任务就是分析解决这些问题,估计这些问题解决了就可以算是真正入门Spark了吧。
ps:后面的数字是问题所在的页数

《spark快速大数据分析》

第一章

  • 到底什么是HDFS
  • spark和hadoop的关系
  • spark1.x和spark2.x有什么区别

第二章

  • 这些shell是怎么能操纵spark的
  • 驱动器程序(Driver program)就是Driver吗
  • 如何在程序里用spark
  • 亲自写一个单词统计的scala程序怎么样
  • 什么是sbt
  • 什么是maven

第三章

  • 节点是什么,是一台机器还是一群机器
  • 随便给一个操作能如何分辨是行动操作还会说转化操作
  • persist方法把RDD缓存到哪了(内存?)
  • 怎么把函数传给spark
  • lambda是什么意思
  • reduce到底怎么用
  • aggregate()这种带什么初始值的有什么用,另外它的函数是什么意思35
    memoryManager

第四章

  • 为什么要单独讲键值对RDD
  • pagerank是怎么实现的57

第五章

  • 具体是怎么读的文件,从哪读(HDFS吗?)
  • sequenceFile文件从哪来的
  • spark是怎么通过Hadoop读文件的73
  • spark的文件系统到底是什么78
  • spark从数据库中读数据是什么意思,为什么会有很多种连接81

第六章

  • 分区是怎么具体体现功能的94

第七章

  • driver,master,worker,executor和application的区别102
  • maven、sbt是干嘛的107
  • 集群管理器和spark的关系是什么 112
  • spark到底是在哪上面运行 112
  • spark是个软件吗,集群管理器是软件吗

第八章

  • 哪些网页能看哪些信息 131
  • 内存管理 137
    memoryManager

《深入理解Spark-核心思想与源码分析》

第一章

  • spark-shell能干嘛 7
  • 如何才能(用eclipse)调试spark代码

第二章

  • MRv1和MRv2的区别
  • Spark程序的运行过程是什么 24
  • RDD是怎么计算的 25

第三章

  • SparkContext初始化的步骤
  • SparkContext的作用是什么
  • SparkEnv与SparkContext的关系
  • ActorSystem的作用到底是啥
  • mapOutputTracker的作用
  • 30页哪些都是干嘛的
  • shuffle到底是什么
  • metricsSystem到底的输入输出是什么
  • SparkUI就是网页显示的哪些内容吗 42
  • 监听器(listener)到底是什么东西 43
  • tab和page的关系 50
  • 任务调度器TaskScheduler的功能 55
  • DAGSheduler的功能 以及和它有关的方法和类 57
  • ClassLoader是什么 64

第四章

  • BlockManager的组成部分 80
  • 这些乱七八糟组件的关系 82
  • 什么是Netty 83
  • BlockManagerMasterActor的作用,位置,使用方法 90
  • DiskStore和DiskBlockManager的关系是什么 94
  • 也就是XXXStore和XXXBlockManager的关系是什么
  • Array,Bytes和Iterator的区别是什么
  • 展开到底是什么意思
  • Tachyon是什么东西和这些存储器有什么关系
  • BlockManager和这些东西的关系是什么
  • MemoryStore就是内存还是表示对内存读写的类
  • BlockManager这些方法和XXXStore有什么关系 114
  • 缓存管理器(CacheManager)既然是缓存到内存,为啥还要有这个 130
  • 块索引Shuffle管理器是什么鬼 135
  • Shuffle内存管理器和其他的内存管理器有什么区别
  • 内存的模型到底是什么样的

第五章

  • 任务的提交与执行的步骤是什么
  • 广播Hadoop配置的作用
  • 依赖Dependence是什么
  • reduceByKey的功能是什么
  • 各种Dependence都是怎么出现的
  • wordcount是怎么完成的,函数是怎么实现的
  • stage划分的具体依据是什么
  • spark里的Map是什么意思。
  • reviveOffers方法的作用是什么 168
  • LocalBackend方法的意思
  • resourceOffers是用来干嘛的
  • 为什么一看到Taskbulabula就头疼
  • 本地化是什么意思 173
  • 任务还原是什么意思,为啥要还原 177
  • ShuffleMapTask到底是干嘛的 178 184
  • SortShuffleManager的功能是什么,函数名的意思 179
  • DagScheduler的作用的什么 183
  • ShuffleMapTask和ResultTask的区别 185

第六章

  • 为什么叫迭代计算,iterator又是什么
  • RDD管道是什么
  • 什么是Shuffle 192
  • 193那个图到底什么意思
  • 做map操作的时候是每个Executor都做一样的操作吗,不同是Executor对应的是不同的分区还是可以对应相同的分区。
  • Executor就是个进程吗还是个线程
  • AppendOnlyMap是什么,怎么看见就恶心 198
  • 采样是什么意思,从哪采样 199
  • SizeTrackingPairBuffer是什么鬼 201
  • 持久化理论上是什么意思 204
  • ShuffleRDD和普通的RDD的区别是什么
  • Shuffle不是一个操作吗为啥还有ShuffleID
  • reduce端和map端还不是一个吗,这个端是指不同的计算机吗还是什么 219

第七章

  • 这里的localactor的作用是什么 225
  • sparkDeploy SchedulerBackend是干嘛的 226
  • local ,local-cluster,Standalone还有yarn和Mesos的区别是什么
  • 订阅RemotingLifecycleEvent能干嘛 229
  • 选举是怎么实现的 231
  • CoarseGrainedSchedulerBackend的作用是什么 236
  • 上边那个和前面讲的CoarseGrainedExecutorBackend的关系
  • CoarseGrainedExecutorBackend在哪讲的
  • APPClient的作用是什么 237
  • 资源调度分配,万一不够用怎么办 243
  • jdk自带的工具VisualVM在哪 247,看这个有什么意思
  • 故障恢复的原理是什么
  • ZooKeeper是什么东西

第八、九、十、十一章

  • 这个我还要看吗

拾遗

  • driver、master和application的区别
  • spark怎么和tensorflow联系到一块的(tensorflow是怎么用spark的)
  • Executor和worker具体是怎么设置的,在哪设置的
  • 怎么用eclipse看spark源码
  • 怎么用eclipse跑spark程序
  • JVM是什么,与Spark有什么关系
  • spark1.x和spark2.x的区别是什么
  • master可以是任意一台机器吗
  • yarn是装在哪里的
  • master通过yarn控制Worker的吗
  • 每台机器都要配置yarn的文件吗
  • 伪分布式运行的结果和真正集群的结果是一样的吗?包括网页的显示之类的
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值