当前搜索:

[Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来

随着Spark SQ的引入以及Hive On Apache Spark的新功能(HIVE-7292)的引入,我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。在今天的Spark Summit上,我们宣布我们正在停止Shark的开发,并将资源全部集中在Spark SQL上,这将为现有Shark用户提供一个Shark特色的圈子(will provide a superset of Sha...
阅读(387) 评论(0)

[Spark]Spark RDD 指南五 持久化

1. 概述Spark中最重要的功能之一是操作时在内存中持久化(缓存)数据集(persisting (or caching) a dataset in memory across operations)。当我们让Spark持久化存储一个RDD时,每个节点都会将其计算的任何分区存储在内存中,并将其重用于该数据集(或从其派生的数据集)的其他行动操作(each node stores any partit...
阅读(657) 评论(0)

[Spark]Spark RDD 指南四 RDD操作

RDD支持两种类型的操作:转移(transformations):从现有数据集创建一个新数据集 动作(actions):在数据集上进行计算后将值返回给驱动程序例如,map是一个转移操作,传递给每个数据集元素一个函数并返回一个新RDD表示返回结果。 另一方面,reduce是一个动作操作,使用一些函数聚合RDD的所有元素并将最终结果返回给驱动程序(尽管还有一个并行的reduceByKey返回分布式数据...
阅读(356) 评论(0)

[Spark]Spark RDD 指南三 弹性分布式数据集(RDD)

Spark的核心概念是弹性分布式数据集(RDD),RDD是一个可容错、可并行操作的分布式元素集合。有两种方法可以创建RDD对象:在驱动程序中并行化操作集合对象来创建RDD从外部存储系统中引用数据集(如:共享文件系统、HDFS、HBase或者其他Hadoop支持的数据源)。1. 并行化集合通过在驱动程序中的现有集合上调用JavaSparkContext的parallelize方法创建并行化集合(Pa...
阅读(408) 评论(0)

[Spark]Spark RDD 指南二 初始化

1. 初始化Spark程序必须做的第一件事是创建一个JavaSparkContext对象(Scala和Python中是SparkContext对象),它告诉Spark如何访问集群。 要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。Java版本:private static String appName = "JavaWordCountDemo"; p...
阅读(666) 评论(0)

[Spark]Spark RDD 指南一 引入Spark

1. Java版Spark 2.1.1适用于Java 7及更高版本。 如果您使用的是Java 8,则Spark支持使用lambda表达式来简洁地编写函数,否则可以使用org.apache.spark.api.java.function包中的类。请注意,从Spark 2.0.0开始,不支持Java 7,并且可能会在Spark 2.2.0中删除(Note that support for Java 7...
阅读(447) 评论(0)

[Spark]那些年我们遇到的Spark的坑

1. java.lang.NoClassDefFoundError: org/apache/spark/Logging1.1 问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.defineClass1(Native Me...
阅读(1540) 评论(0)

[Spark]Spark Streaming 指南四 输入DStreams和Receivers

1. 输入DStream与Receiver输入DStreams表示从源中获取输入数据流的DStreams。在指南一示例中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入DStream(除 file stream)都 与一个接收器Receiver相关联,接收器从源中获取数据,并将数据存入Spark内存中来进行处理。 输入DStreams表示从数据源获取的原始数据...
阅读(333) 评论(0)

[Spark]Spark Streaming 指南三 DStreams

离散流或者DStreams是Spark Streaming提供的基本抽象,它代表一个连续的数据流。从源中获取输入流,或者是输入流通过转换算子生成的处理后的数据流。在内部,DStreams由一系列连续的 RDD组成。这是Spark对不可变,分布式数据集的抽象(更多细节参见Spark编程指南)。 DStream中的每个RDD包含来自特定间隔的数据,如下图所示:对DStream应用的任何操作都会转换为D...
阅读(322) 评论(0)

[Spark]Spark Streaming 指南二 初始化StreamingContext

为了初始化Spark Streaming程序,一个StreamingContext对象必需被创建,它是Spark Streaming所有流操作的主要入口。一个StreamingContext 对象可以用SparkConf对象创建。 可以使用SparkConf对象创建JavaStreamingContext对象:SparkConf conf = new SparkConf().setAppName(...
阅读(930) 评论(0)

[Spark]Spark Streaming 指南一 Example

1. 概述Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等许多源中提取,并且可以使用由诸如map,reduce,join或者 window等高级函数组成的复杂算法来处理。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的...
阅读(442) 评论(0)

[Spark]Spark 应用程序部署工具spark-submit

1. 简介Spark的bin目录中的spark-submit脚本用于启动集群上的应用程序。 可以通过统一的接口使用Spark所有支持的集群管理器,因此不必为每个集群管理器专门配置你的应用程序(It can use all of Spark’s supported cluster managers through a uniform interface so you don’t have to co...
阅读(1669) 评论(0)
    个人资料
    • 访问:1379397次
    • 积分:21340
    • 等级:
    • 排名:第398名
    • 原创:623篇
    • 转载:133篇
    • 译文:60篇
    • 评论:182条
    博客专栏
    文章分类
    最新评论