spark
wm_43827516
这个作者很懒,什么都没留下…
展开
-
Structured Streaming
第 1 章 Structured Streaming 概述从 spark2.0 开始, spark 引入了一套新的流式计算模型: Structured Streaming.该组件进一步降低了处理数据的延迟时间, 它实现了“有且仅有一次(Exectly Once)” 语义, 可以保证数据被精准消费.Structured Streaming 基于 Spark SQl 引擎, 是一个具有弹性和容错的流式处理引擎. 使用 Structure Streaming 处理流式计算的方式和使用批处理计算静态数据(表中原创 2020-11-15 21:39:48 · 858 阅读 · 0 评论 -
sparkcore
第1章 Spark概述1.4 Spark or HadoopHadoop的MR框架和Spark框架都是数据处理框架,那么我们在使用时如何选择呢?Hadoop MapReduce由于其设计初衷并不是为了满足循环迭代式数据流处理,因此在多并行运行的数据可复用场景(如:机器学习、图挖掘算法、交互式数据挖掘算法)中存在诸多计算效率等问题。所以Spark应运而生,Spark就是在传统的MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更原创 2020-11-11 00:32:42 · 299 阅读 · 0 评论 -
sparkSQL
生成模拟数据import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkSQL16_Req_Mock { def main(args: Array[String]): Unit = { System.setProperty("HADOOP_USER_NAME", "root") // TODO SparkSQL val sparkCo原创 2020-11-04 22:07:42 · 160 阅读 · 0 评论 -
sparkstreaming实时
pom依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> </dependency> <dependency> <grou原创 2020-11-02 21:19:29 · 237 阅读 · 0 评论 -
SparkStreaming
pom依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </dependency>原创 2020-11-02 20:58:08 · 131 阅读 · 1 评论