Spark
Spark基础
九月木樨
00后程序猿,写博客只是为了记录自己的所学,以及工作或学习中遇到的问题。
展开
-
Structured Streaming基础概述
文章目录第一章 Structured Streaming曲折发展史Spark StreamingStructured Streaming介绍API主要优势编程模型第二章 Structured Streaming实战创建Source读取Socket数据读取目录下文本数据计算操作输出output modeoutput sink第三章 StructuredStreaming与其他技术整合整合Kafka官网介绍整合环境准备整合MySQL简介代码演示第一章 Structured Streaming曲折发展史Spa原创 2020-05-22 11:00:27 · 827 阅读 · 0 评论 -
Spark Streaming基础概述
文章目录第一章 Spark Streaming引入Spark Streaming介绍实时计算所处的位置第二章 Spark Streaming原理SparkStreaming原理整体流程数据抽象DStream相关操作TransformationsOutput/Action总结第三章 Spark Streaming实战WordCount需求&准备代码演示执行updateStateByKey问题代码演示执行reduceByKeyAndWindow图解代码演示执行统计一定时间内的热门词汇TopN需求代码演示原创 2020-05-21 21:16:48 · 541 阅读 · 0 评论 -
Spark SQL基础概述
Spark SQL概述Spark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。●Spark SQL 的特点1.易整合可以使用java、scala、python、R等语言的API操作。2原创 2020-05-19 22:31:41 · 655 阅读 · 0 评论 -
Spark Core基础概述
RDD详解1.1. 什么是RDD●为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的数据抽象。AMP实验室发表的一篇关于RDD的论文:《Resilient Distributed Da原创 2020-05-18 22:34:58 · 712 阅读 · 0 评论 -
Spark介绍和安装
Spark基本介绍Apache Spark官方介绍:http://spark.apache.org/Apache Spark 官方文档中文版:http://spark.apachecn.org/#/Apache Spark是用于大规模数据处理的统一分析引擎。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件...原创 2020-04-22 21:37:04 · 380 阅读 · 0 评论 -
Spark基础
Spark基础什么是Spark基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。Spark特点快: Spark计算速度是MapReduce计算速度的10-100倍易用:(算法多)MR支持1种计算模型,Spsark支持更多的计算模型。通用: Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算等兼容性: Spark支...原创 2020-04-20 17:19:48 · 891 阅读 · 5 评论