![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 86
<>=
这个作者很懒,什么都没留下…
展开
-
Structured Streaming 编程指南基础
简介Structured Streaming 是一个构建在SparkSQL可扩展和容错的流处理引擎.用户可以使用计算静态批处理的SQL表达式实现Streaming计算。内部使用Spark SQL实现对数据流的持续计算和持续输出。用户还可以使用Dataset/DataFrame API实现对流数据的聚合、时间窗口、以及stream-to-batch的处理等,同时Struced Streaming系...转载 2020-01-19 15:03:22 · 271 阅读 · 0 评论 -
Spark Yarn_Standalone
环境搭建Hadoop环境设置CentOS进程数和文件数(重启生效)[root@CentOS ~]# vi /etc/security/limits.conf* soft nofile 204800* hard nofile 204800* soft nproc 204800* hard nproc 204800优化linux性能,可能修改这个最大值配置主机名(重启生...转载 2020-01-19 15:08:55 · 66 阅读 · 0 评论 -
Spark SQL编程指南
Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个...原创 2020-01-19 15:00:22 · 206 阅读 · 0 评论 -
Apache Spark SQL 章节六
Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个...原创 2019-12-09 20:28:49 · 108 阅读 · 0 评论 -
Apache Spark 之 SparkSQL(章节六)
Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个用途是执行SQL查询。 Spar...原创 2020-01-19 15:00:40 · 377 阅读 · 0 评论 -
Apache Spark之DStream算子(章节五)
DStreams 转换算子与RDD类似,转换允许修改来自输入DStream的数据。 DStreams支持普通Spark RDD上可用的许多转换。一些常见的如下。TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a ...原创 2020-01-19 15:01:18 · 150 阅读 · 0 评论 -
Apache Spark Streaming (章节四)
Spark StreamingSpark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理。最后,处理后的数据可以推送到文件系统,数据库和实时dashboards。在...原创 2020-01-19 15:02:17 · 230 阅读 · 0 评论 -
Apache Spark之RDD算子分析(章节三)
RDD 转换算子map将父类RDD的元素以此转换成新的RDD元素scala> sc.parallelize(List(1,2,3,4,5),3).map(item=>item+2).collect()flatMap将集合的元素展开,并转换scala> sc.textFile("hdfs:///demo/words") .flatMap(line=&...原创 2020-01-19 15:02:32 · 191 阅读 · 0 评论 -
Apache Spark之RDD详解 (章节二)
RDD概述Spark计算中一个重要的概念就是可以跨越多个节点的可伸缩分布式数据集 RDD(resilient distributeddataset) Spark的内存计算的核心就是RDD的并行计算。RDD可以理解是一个弹性的,分布式、不可变的、带有分区的数据集合,所谓的Spark的批处理,实际上就是正对RDD的集合操作,RDD有以下特点:包含一些列分区每个分区都有自己的计算的funct...原创 2019-12-06 22:01:46 · 96 阅读 · 0 评论 -
Apache Spark之架构概述(章节一)
背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架,在设计初期只...原创 2020-01-19 15:02:39 · 174 阅读 · 0 评论