spark
LJiaWang
这个作者很懒,什么都没留下…
展开
-
Spark DStreams
Spark DStreamsDStreams是什么DStreams是构建在Spark RDD之上的一款流处理工具,意即Spark DStreams并不是一个严格意义上的流处理,底层通过将RDD 在时间轴上分解成多个小的 RDD-micro batch流 | 批处理计算类型数据量级计算延迟输入数据输出计算形式批处理MB=>GB=>TB几十分钟|几个小时固定输入(全量)固定输出最终终止(时间限制)流处理byte级别|记录级别亚秒级延迟持续输入原创 2020-05-28 14:40:31 · 178 阅读 · 0 评论 -
Structured Streaming
Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理中的常见原创 2020-05-28 14:36:29 · 184 阅读 · 0 评论 -
Spark SQL
Spark SQLSpark SQL是构建在Spark RDD之上一款ETL(Extract Transformation Load)工具(类似Hive-1.x-构建在MapReduce之上)。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为止Spark SQL提供了两种风格的交互API:Dataset-API /SQL脚本。Dataset API:原创 2020-05-28 14:31:53 · 134 阅读 · 0 评论 -
Spark-RDD
Spark-RDD概述俯视整个Spark程序,所有Spark的Application都包含一个Driver程序,该程序是用户的主函数以及在集群中执行各种各样的并行操作。在Spark中提出了一个核心的概念 resilient distributed dataset 简称 RDD,RDD是一个并行的分布式集合 ,该集合数据可以跨节点存储,所有的RDD操作都是在集群的计算节点中并行的执行。RDD可以...原创 2019-12-25 17:06:55 · 161 阅读 · 0 评论 -
Spark-环境搭建(Spark Yarn|Standalone)
Spark Yarn|Standalone基础环境关闭防火墙[root@centos ~]# service iptables stop # 关闭防火墙iptables: Setting chains to policy ACCEPT: filter [ OK ]iptables: Flushing firewall rules: ...原创 2019-12-25 15:47:04 · 126 阅读 · 0 评论