Spark
chroje
这个作者很懒,什么都没留下…
展开
-
编译Spark
Spark发展至今已经相当成熟了,编译起来也相当方便。SBT编译由于国内网络问题不能连接Maven中央仓库,想用SBT编译的同学可以改userhome目录下的repository文件连接Oschina和aliyun仓库,这两个仓库我都试过结果还是没连上,所以改为使用maven编译。环境为Win10版本为2.3.0准备环境:Maven、Git配置Git/bin目录Maven/bin和到Path路径首...原创 2018-05-22 23:00:40 · 348 阅读 · 0 评论 -
RDD源码分析--Iterator
RDD,Resilient Distributed Datasets,弹性分布式数据集。在Spark中,通俗地可以认为是一个数据集合,只不过这个数据集合分布在不同的机器上,对外表现为一个整体。一般来讲,对RDD进行操作比如map操作时分为两步,第一步为局部操作,即是对每台机器上的RDD的部分数据都进行map并行操作,第二步为汇总操作,将每台机器的执行结果进行汇总。其中有一个问题是,RDD中的数据集...原创 2018-05-28 12:02:01 · 940 阅读 · 0 评论 -
Spark Streaming中的checkpoint
Checkpoint我们必须记录一些信息以方便恢复现场,在Spark Streaming中使用checkpoint实现恢复操作。Spark Streaming中有两种不同对象的checkpont操作。元数据(Metadata) checkpointing保存Streaming中定义流计算的相关信息到可信赖的文件系统如HDFS,这种方式用于运行Driver的节点失败之后的恢复。元数据包括:配置---...原创 2018-06-04 12:10:56 · 744 阅读 · 0 评论