Ying

个人博客:http://smartsi.club/

Spark内部原理之运行原理一

原文来源于:Spark内部原理之运行原理一在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的 Hadoop,优势都非常明显。Spark ...

2018-03-15 14:10:54

阅读数:211

评论数:0

[Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来

随着Spark SQ的引入以及Hive On Apache Spark的新功能(HIVE-7292)的引入,我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。在今天的Spark Summit上,我们宣布我们正在停止Shark的开发,并将资源全部集中在Spark SQL上,这将为现有S...

2017-06-20 20:41:40

阅读数:552

评论数:0

[Spark]Spark RDD 指南五 持久化

1. 概述Spark中最重要的功能之一是操作时在内存中持久化(缓存)数据集(persisting (or caching) a dataset in memory across operations)。当我们让Spark持久化存储一个RDD时,每个节点都会将其计算的任何分区存储在内存中,并将其重用...

2017-06-16 18:05:41

阅读数:1126

评论数:0

[Spark]Spark RDD 指南四 RDD操作

Spark2.3.0版本: Spark2.3.0 RDD操作RDD支持两种类型的操作:转移(transformations):从现有数据集创建一个新数据集 动作(actions):在数据集上进行计算后将值返回给驱动程序例如,map是一个转移操作,传递给每个数据集元素一个函数并返回一个新RDD表示返...

2017-06-13 21:14:25

阅读数:1107

评论数:0

[Spark]Spark RDD 指南三 弹性分布式数据集(RDD)

Spark2.3.0 版本: Spark2.3.0 创建RDDSpark的核心概念是弹性分布式数据集(RDD),RDD是一个可容错、可并行操作的分布式元素集合。有两种方法可以创建RDD对象:在驱动程序中并行化操作集合对象来创建RDD从外部存储系统中引用数据集(如:共享文件系统、HDFS、HBase...

2017-06-12 20:40:52

阅读数:709

评论数:0

[Spark]Spark RDD 指南二 初始化

1. 初始化Spark程序必须做的第一件事是创建一个JavaSparkContext对象(Scala和Python中是SparkContext对象),它告诉Spark如何访问集群。 要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。Java版本:pri...

2017-06-08 17:08:36

阅读数:1223

评论数:0

[Spark]Spark RDD 指南一 引入Spark

2.3.0版本:Spark2.3.0 引入Spark1. Java版Spark 2.1.1适用于Java 7及更高版本。 如果您使用的是Java 8,则Spark支持使用lambda表达式来简洁地编写函数,否则可以使用org.apache.spark.api.java.function包中的类。请...

2017-06-08 16:36:51

阅读数:643

评论数:0

[Spark]那些年我们遇到的Spark的坑

1. java.lang.NoClassDefFoundError: org/apache/spark/Logging1.1 问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spar...

2017-06-08 16:24:07

阅读数:4159

评论数:1

[Spark]Spark Streaming 指南四 输入DStreams和Receivers

1. 输入DStream与Receiver输入DStreams表示从源中获取输入数据流的DStreams。在指南一示例中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入DStream(除 file stream)都 与一个接收器Receiver相关联,接收器从...

2017-03-02 20:41:12

阅读数:597

评论数:0

[Spark]Spark Streaming 指南三 DStreams

离散流或者DStreams是Spark Streaming提供的基本抽象,它代表一个连续的数据流。从源中获取输入流,或者是输入流通过转换算子生成的处理后的数据流。在内部,DStreams由一系列连续的 RDD组成。这是Spark对不可变,分布式数据集的抽象(更多细节参见Spark编程指南)。 DS...

2017-03-01 20:17:19

阅读数:494

评论数:0

[Spark]Spark Streaming 指南二 初始化StreamingContext

为了初始化Spark Streaming程序,一个StreamingContext对象必需被创建,它是Spark Streaming所有流操作的主要入口。一个StreamingContext 对象可以用SparkConf对象创建。 可以使用SparkConf对象创建JavaStreamingCon...

2017-03-01 20:16:12

阅读数:2750

评论数:0

[Spark]Spark Streaming 指南一 Example

1. 概述Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等许多源中提取,并且可以使用由诸如map,reduce,join或者 window等高级函数组成...

2017-03-01 20:14:18

阅读数:902

评论数:0

[Spark]Spark 应用程序部署工具spark-submit

1. 简介Spark的bin目录中的spark-submit脚本用于启动集群上的应用程序。 可以通过统一的接口使用Spark所有支持的集群管理器,因此不必为每个集群管理器专门配置你的应用程序(It can use all of Spark’s supported cluster managers ...

2017-02-16 20:08:53

阅读数:3848

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭