![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 87
本系列会由浅入深的总结和介绍我学习spark的一些过程。
wangzhongyudie
这个作者很懒,什么都没留下…
展开
-
SPark学习笔记:14 Spark Stream的Window操作
Spark DStream提供了Window操作,我们可以使用Window算子对数据进行一系列的算子运算。和Flink不同,Spark DStream提供的window操作比较简单。只能基于数据的处理时间来进行运算。Spark的窗口可以分为滚动窗口和滑动窗口两类。滚动窗口窗口的大小是固定大小的时间间隔窗口与窗口之间无交集。窗口每次滑动的步长等于窗口的大小滑动窗口窗口的大小是固定大小的时间间隔窗口与窗口之间有交集。窗口每次滑动的步长小于窗口的大小。原创 2022-09-07 00:48:00 · 488 阅读 · 0 评论 -
SPark学习笔记:13 Spark Streaming 的Transform算子和Action算子
和RDD类似,DStreams也有一些转换算子用于处输入流中的数据。DStream中有很多转换算子和RDD的转换算子一样,同时也提供了一些额外的算子。此文将总结DStreams的各种算子的使用。原创 2022-08-17 18:21:47 · 1156 阅读 · 0 评论 -
SPark学习笔记:12 Spark Streaming 的简单应用WordCount
Spark Streaming是Spark Core Api的一个扩展,用于流式数据的处理。支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ、TCP、HDFS/S3等等。数据输入后可以使用Spark的高度抽象原语进行运算。运算完毕后,将结果存放在如HDFS、关系型数据库等等Sink中。严格意义上来说,SparkStreaming采用的并不是实时的流处理方式(来一条数据处理一条)。...原创 2022-08-02 18:30:15 · 439 阅读 · 0 评论 -
SPark学习笔记:11 SparkSQL 的用户自定义函数UDF、UDAF、UDTF
本文详细的介绍了SparkSQL中用户自定义UDF、UDAF、UDTF函数的实现,并提供完整的示例讲解每一种用户自定义函数的实现。原创 2022-08-01 18:50:24 · 1361 阅读 · 0 评论 -
SPark学习笔记:10 SparkSQL 数据源之Spark on Hive
ApacheHive是Hadoop上的SQL引擎,SparkSQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的SparkSQL可以支持Hive表访问、UDF(用户自定义函数)以及Hive查询语言(HiveQL/HQL)等。需要强调的一点是,如果要在SparkSQL中包含Hive的库,并不需要事先安装Hive。一般来说,最好还是在编译SparkSQL时引入Hive支持,这样就可以使用这些特性了。...原创 2022-07-27 00:20:13 · 780 阅读 · 0 评论 -
SPark学习笔记:09SparkSQL 数据源之文件和JDBC
SparkSQL支持通过DataFrame的接口操作各种各样的数据源。DataFrame既能够使用传统的算子做转换操作,也可以通过注册成临时视图的方式通过SQL来操作。这篇文章将总结Spark的各种数据源,以及如何将数据落地到文件或者传统的关系型数据库中。...原创 2022-07-26 16:21:45 · 711 阅读 · 0 评论 -
SPark学习笔记:08-SParkSQL的DataFrame和DataSet操作
在Spark中DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库的二维表格。和python的Pandas的DataFrame非常类似。DataFrame和RDD的区别主要在于,DataFrame带有Schema元信息,即DataFrame锁表示的二维表格数据集的每一列都带有名称和类型。DataSet是分布式的数据集合,在Spark1.6中添加的一个新的抽象,是DataFrame的一个扩展。DataSet和DataFrame的关系DataSet的特性。...原创 2022-07-22 15:27:09 · 1008 阅读 · 0 评论 -
SPark学习笔记:06-SPark的累加器和广播变量
Spark核心的三大数据结构是RDD、累加器、和广播变量。前面的文章中已经详细的讲解了RDD的使用,在此文中将详细的讲解累加器和广播变量的使用。原创 2022-07-19 18:34:26 · 465 阅读 · 0 评论 -
SPark学习笔记:05-SPark RDD的持久化
我们知道RDD是不存储数据的,由上面的流程我们知道,在Action算子触发执行完毕后启动单独的job来执行将RDD的数据写入到checkpoint目录中,这时RDD的计算已经完成,RDD中没有存储数据,就需要重新从头开始计算得出RDD的数据,再写入到checkpoint目录中,效率会比较低,所以推荐和cache或者persist一起使用,这样就不需要重新计算RDD的数据。当我们持久化一个RDD时,每个节点将其所计算的每个分区持久化到内存中,这样用到这些数据的其他的行动算子就可以复用这一部分数据。......原创 2022-07-15 18:14:11 · 640 阅读 · 0 评论 -
SPark学习笔记:04-SPark RDD的Transformations和Action算子操作
Rdd的支持两种类型的算子操作,一类是Transformations,一类是Action算子。本文以代码结合文字的形式最全面,最详细的总结了Spark中的各类算子的操作。原创 2022-07-15 00:18:03 · 1001 阅读 · 0 评论 -
SPark学习笔记:03-SPark的RDD详解
Resilient Distributed Datasets(RDDs),中文名称是弹性分布式数据集。Spark的所有操作围绕着RDDs展开。它是一组可容错的、可并行操作的数据的集合。我们可以通过两种方式来创建一个RDDs:基于文件创建RDD深入理解RDDRDD(Resilient Distributed Dataset),弹性分布式数据集。它具有以下5大特性:要理解以上几点,我们先来看一张RDD的数据图:在上面的示例中结合上图所示,我们基于文件使用sparkContext.TextFile()创原创 2022-07-12 18:58:59 · 658 阅读 · 0 评论 -
SPark学习笔记:02-SPark简单应用WordCount
File–>Project Structure -->Modules,添加scala依赖库Spark统计WordCount编写完成后可以在idea中运行测试,看到运行结果。Tips:如果需要提交到spark集群上运行,需要先打成jar包,然后使用命令的方式提交。当然在代码中conf.setMaster()就不能写成“local”了。总结开发一个Spark应用的流程:如果报错Failed to load class可能是因为使用Scala打包时没有生成class文件,这时需要在pom.xml中添加原创 2022-07-11 19:24:27 · 1091 阅读 · 0 评论 -
SPark学习笔记:01-SPark集群搭建之Standalone模式
Spark集群有4种搭建的方式,分别是Standalone、Yarn、Mesos和Kubernetes的方式。其中Mesos以前在国外用的比较多,现在新的版本中已经被移除了。关闭防火墙ssh免密登录安装JDK,配置环境变量等搭建Hadoop集群,搭建方式见:《Hadoop学习笔记系列:01-Hadoop-Yarn高可用HA集群的搭建》安装配置步骤1、下载安装包到官网下载对应Hadoop版本的Spark安装包,由于我的hadoop 集群是Hadoop3.3.1版本的,所以我准备安装Spark原创 2022-07-11 19:26:51 · 369 阅读 · 0 评论