Spark基础
Spark-基础
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
Jupyter notebook 编写scala与spark
前置条件spark安装完毕Ancona安装完毕为了在jupyter notebook上编写scala与spark需要安装Jupyter-Spark与Jupyter-Scala两个jupyter核心(kernel)本人安装顺序为Jupyter-Spark,然后Jupyter-Scala,文档编写顺序为本人安装顺序。开始此处使用Apache toree给notebook安装scala ...原创 2018-10-21 16:14:04 · 7652 阅读 · 4 评论 -
RDD浅谈
RDD概念:Resilient Distributed DatasetsRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,...原创 2018-10-21 16:16:18 · 559 阅读 · 0 评论