Spark
Apache 的顶级项目,一种快速、通用、可扩展的大数据分析引擎,由 Scala 语言编写
harveybd
这个作者很懒,什么都没留下…
展开
-
1.Spark 基础解析之概述及集群安装
1.Spark 概述1.1什么是Spark?官网:http://spark.apache.org        Spark是一种快速、通用、可扩展的大数据分析引擎,2014年2月成为Apache顶级项目,由Scala语言编写&a原创 2019-02-20 18:21:07 · 428 阅读 · 0 评论 -
2.Spark 基础解析之执行Spark程序
1 执行第一个Spark程序该算法是利用蒙特·卡罗算法求PI/home/hadoop/software/spark/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://harvey:7077 \--executor-memory 1G \--total-executor-cores ...原创 2019-02-20 19:18:55 · 894 阅读 · 0 评论 -
3.Spark Core 应用解析之RDD概念及创建
1.RDD为什么会产生?       &原创 2019-02-20 20:39:48 · 350 阅读 · 0 评论 -
4.Spark Core 应用解析之RDD常用转换操作
RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行1.map(func)返回一个新的RDD,该RDD由每...原创 2019-02-27 18:36:51 · 647 阅读 · 0 评论 -
5.Spark Core 应用解析之RDD常用行动操作
RDD 中的Action是数据执行部分,其通过执行count,reduce,collect等方法真正执行数据的计算部分1.reduce(func)通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的scala> val rdd1 = sc.parallelize(1 to ...原创 2019-02-27 18:56:41 · 464 阅读 · 0 评论 -
6.Spark Core 应用解析之RDD持久化
1.概述Spark是分布式基于内存的数据处理引擎,它的一个基本功能是将RDD持久化到内存中。巧妙使用RDD持久化,甚至在某些场景下,可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说,RDD持久化,是非常重要的。Spark中最重要的功能之一是操作时在内存中持久化(缓存)数据集。默认情况下当使用action 在RDD上时Spark会重新计算刷新RDD.但也可以通过持久化...原创 2019-02-27 22:49:06 · 357 阅读 · 0 评论 -
7.Spark Core 应用解析之RDD检查点机制
Spark RDD 检查点机制Spark 中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,类似于快照,就是将 DAG 中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS 里面。为什么要使用 checkpoint?例如在 Spark 计算里面计算流程 DAG 特别长,服务器需要将整个 DAG 计算完成得出结果。但是如果在这很长的计算流程中突然中...原创 2019-02-28 20:20:53 · 640 阅读 · 0 评论