Hadoop+Spark
文章平均质量分 83
小小小书屋
每天收获一点点。。。
展开
-
Spark Streaming官方文档翻译Spark Streaming自定义接收器
Spark Streaming自定义接收器(Spark Streaming Custom Receivers)Spark Streaming除了它内置支持的数据源之外(也就是说,除了Flume、Kafka、Kinesis、文件、socket等),也可以从其他任何数据源接收流数据。 这要求开发人员实现一个为接收来自相关数据源的数据而定制的接收器。本指南介绍了实现自定义接收器并在Spark流应用程序...原创 2020-01-02 20:17:35 · 205 阅读 · 0 评论 -
Spark Streaming官方文档翻译Spark Streaming +Kafka 集成指南
Spark Streaming +Kafka 集成指南Apache Kafka 是作为发布-订阅消息传递的重新思考,它是分布式、分区、复制提交日志服务的。在使用Spark开始集成之前,请仔细阅读Kafka文档。Kafka项目在0.8和0.10版本之间引入了一个新的消费者API,因此有两个单独的相应的Spark流= Streaming 应用包。请为您的代理(中间件)和所需功能选择正确的软件包;请...原创 2020-01-02 20:16:04 · 413 阅读 · 0 评论 -
Spark Streaming官方文档翻译Spark Streaming容错
容错语义(Fault-tolerance Semantics)在本节中,我们将讨论Spark Streaming应用程序在发生故障时的行为。背景(Background)为了理解Spark Streaming提供的语义,让我们记住Spark RDDs的基本容错语义。RDD是一个不可变的、可确定地重新计算,分布式的数据集。每个RDD都会以容错的方式记住输入数据集上创建的确定性操作的血缘关系。...原创 2020-01-02 20:12:57 · 235 阅读 · 0 评论 -
Spark Streaming官方文档翻译Spark Streaming性能调优
性能调优(Performance Tuning)要在集群上的Spark Streaming应用程序中获得最佳性能,需要进行一些调整。这些已在调优指南中详细讨论。本节重点介绍一些最重要的内容。数据接收的并行度(Level of Parallelism in Data Receiving)通过网络接收数据(如Kafka、Flume、socket等)需要将数据反序列化并存储在Spark中。如果数据...原创 2020-01-02 20:11:07 · 353 阅读 · 0 评论 -
Spark Streaming官方文档翻译Spark Streaming应用之部署,升级,监控
部署应用(Deploying Applications)本节讨论部署Spark流应用程序的步骤。要求具有集群管理器的集群——这是任何Spark应用程序的一般需求,并在部署指南中详细讨论。应用打成jar包——须将流应用程序编译到JAR包中。如果使用Spark -submit启动应用程序,则不需要在JAR中提供Spark和Spark流所对应的jar包。但是,如果您的应用程序使用高级的数...原创 2020-01-02 20:08:04 · 245 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之累加器、广播变量和检查点
基本概念累加器、广播变量和检查点(Accumulators, Broadcast Variables, and Checkpoints)无法从Spark Streaming中的检查点恢复累加器和广播变量。如果启用了检查点并同时使用累加器或广播变量,则必须为累加器和广播变量创建延迟实例化的单例实例,以便在驱动程序失败重新启动后重新实例化它们。如下面的例子所示。object WordBlackl...原创 2020-01-02 20:05:33 · 406 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之缓存与检查点
缓存/持久性(Caching / Persistence)与RDDs类似,DStreams还允许开发人员将流的数据持久化到内存中。也就是说,在DStream上使用persist()方法将自动在内存中持久化该DStream的每个RDD。如果DStream中的数据将被多次计算(例如,对同一数据的多次操作),那么这是非常有用的。对于基于窗口的操作,如reduceByWindow和reduceByKey...原创 2020-01-02 19:56:16 · 609 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之sql与Mllib
#基本概念DataFrame和SQL操作(DataFrame and SQL Operations)您可以轻松地在流数据上使用DataFrames和SQL操作。 您必须使用StreamingContext正在使用的SparkContext创建SparkSession。此外,这样做可以在驱动程序失败时重新启动。这是通过创建一个延迟实例化的SparkSession单例来实现的。如下面的例子所示。它...原创 2020-01-02 19:54:07 · 232 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之输出操作
DStreams上的输出操作(Output Operations on DStreams)输出操作允许将DStream的数据推送到外部系统,如数据库或文件系统。由于输出操作实际上允许外部系统使用转换后的数据,因此它们会触发所有DStream转换的实际执行(类似于RDDs的actions)。目前定义了以下输出操作:输出操作意义print()在运行流应用程序的驱动节点上打印D...原创 2020-01-02 19:52:32 · 189 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之转换操作
基本概念转换DStreams(Transformations on DStreams)与RDDs类似,转换允许修改输入DStream中的数据。DStreams支持许多在普通Spark RDD上可用的转换。一些常见的操作如下。转换意义map(func)通过函数func转换源DStream的每个元素来返回一个新的DStream。flatMap(func)与map类似...原创 2020-01-02 19:49:12 · 277 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之输入数据流和接收器
输入数据流和接收器(Input DStreams and Receivers)输入数据流是表示从数据源接收的输入数据流。在quick示例中,lines 是一个输入DStream,它表示从netcat服务器接收到的数据流。每个输入DStream(本节后面讨论的文件流除外)都与接收方(Scala doc、Java doc)对象相关联,接收方接收来自源的数据并将其存储在Spark内存中进行处理。Sp...原创 2020-01-02 19:44:16 · 290 阅读 · 0 评论 -
Spark Streaming官方文档翻译基本概念之初始化与Dstream
基本概念接下来,我们将脱离简单的示例,并详细介绍Spark Streaming的基础知识。链接(Linking)与Spark相似,可以通过Maven Central使用Spark Streaming。要编写自己的Spark Streaming程序,您必须将以下依赖项添加到SBT或Maven项目中。<dependency> <groupId>org.apach...原创 2020-01-02 19:39:12 · 289 阅读 · 0 评论 -
Spark Streaming官方文档翻译Spark Streaming总览
总览Spark Streaming 是Spark core API的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis或TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将Spark的机器...原创 2020-01-02 19:31:37 · 394 阅读 · 0 评论 -
Spark程序调用json4s报错[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/Js]
Error: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue; at org.apache.spark.sql.types.DataType$.fromJson(DataType.scala:113) at org.apache.spark.sql.ex...原创 2018-11-05 10:15:32 · 7057 阅读 · 0 评论 -
Spark2.3.1写parquet文件报错
scala> val peopleDF = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")peopleDF: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala> ...原创 2018-07-31 10:14:24 · 5936 阅读 · 0 评论