Spark
shirukai
路漫漫其修远兮
展开
-
Spark创建DataFrame的几种方式
创建DataFrame的几种方式如要生成如下的DataFrame数据+----+---+-----------+|name|age| phone|+----+---+-----------+|ming| 20|15552211521||hong| 19|13287994007|| zhi| 21|15552211523|+----+---+-----------+...原创 2018-07-17 17:47:51 · 35026 阅读 · 2 评论 -
StructuredStreaming项目开发记录
StructuredStreaming项目开发记录版本说明:Spark2.4前言最近基于Spark Structured Streaming开发一套实时数据判别清洗系统,在开发过程接触了一些StructuredStreaming的新特性以及新用法。本文主要记录一下在开发过程中使用到的技术点,以及遇到的问题总结。1 放弃Spark Streaming 选用Structured Str...原创 2019-05-20 09:59:47 · 1313 阅读 · 4 评论 -
StructuredStreaming动态更新参数
StructuredStreaming动态更新参数版本说明:Spark 2.41 前言在使用StructuredStreaming的时候,我们可能会遇到在不重启Spark应用的情况下动态的更新参数,如:动态更新某个过滤条件、动态更新分区数量、动态更新join的静态数据等。在工作中,遇到了一个应用场景,是实时数据与静态DataFrame去Join,然后做一些处理,但是这个静态DataFra...原创 2019-02-28 17:19:01 · 2102 阅读 · 0 评论 -
SparkSQL基于DataSourceV2自定义数据源
SparkSQL基于DataSourceV2自定义数据源版本说明:Spark 2.3前言:之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用,总的来说SparkSQL支持的数据源还是挺丰富的,但业务上可能不拘束于这几种数据源,比如将HBase作为SparkSQL的数据源,REST数据源等。这里主要讲一下在Spark2.3版本之后推出的DataSourceV2,基...原创 2019-02-28 17:18:23 · 6475 阅读 · 6 评论 -
StructuredStreaming 内置数据源及实现自定义数据源
StructuredStreaming 内置数据源及实现自定义数据源版本说明:Spark:2.3/2.4代码仓库:https://github.com/shirukai/spark-structured-datasource.git1 Structured内置的输入源 Source官网文档:http://spark.apache.org/docs/latest/structured-...原创 2019-01-29 11:37:48 · 3602 阅读 · 3 评论 -
Spark读写Elasticsearch
Spark读写Elasticsearch版本说明Spark:2.3.1Elasticsearch: elasticsearch-6.4.01 Scala环境下Spark读写Elasticsearch1.1 依赖包1.1.1 Spark依赖<dependency> <groupId>org.apache.spark</groupId> ...原创 2018-12-22 16:54:15 · 6013 阅读 · 0 评论 -
SparkStreaming 解析Kafka JSON格式数据
SparkStreaming 解析Kafka JSON格式数据项目记录:在项目中,SparkStreaming整合Kafka时,通常Kafka发送的数据是以JSON字符串形式发送的,这里总结了五种SparkStreaming解析Kafka中JSON格式数据并转为DataFrame进行数据分析的方法。需求:将如下JSON格式的数据转成如下所示的DataFrame1 使用Python脚...原创 2018-12-22 16:53:25 · 24491 阅读 · 22 评论 -
SparkStreaming 读写Kafka
Spark/Streaming 读写Kafka版本说明kafka:2.12-2.0.0spark:<spark.version>2.3.0</spark.version>scala依赖包:<dependency> <groupId>org.apache.spark</groupId> <artifa...原创 2018-12-22 16:52:56 · 911 阅读 · 0 评论 -
SparkSQL数据源操作
SparkSQL数据源操作版本说明: spark-2.3.0SparkSQL支持很多数据源,我们可以使用Spark内置的数据源,目前Spark支持的数据源有:json,parquet,jdbc,orc,libsvm,csv,text。也可以指定自定义的数据源,只需要在读取数据源的时候,指定数据源的全名。在https://spark-packages.org/这个网站,我们可以获取到更多的第...原创 2018-12-22 16:51:52 · 784 阅读 · 0 评论 -
SparkSQL内置函数
Spark SQL 内置函数 版本说明:spark-2.3.0SparkSQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24CSDN博主整理的内置函数:https://blog.csdn.net/liam08/article/d...原创 2018-09-12 18:02:36 · 2144 阅读 · 0 评论 -
Spark DataFrame列的合并和拆分
Spark DataFrame 列的合并与拆分 版本说明:Spark-2.3.0使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。1 DataFrame列数据的合并例如:我们有如下数据,想要将三列数据合并为一列,并以“,”分割+----...原创 2018-09-12 17:57:03 · 22918 阅读 · 0 评论 -
sparkML特征向量合并和拆分
SparkML特征向量合并和拆分VectorAssembler(特征向量合并)是spark ml包里提供的算法, 但是对于向量拆分,官方没有听方法,这里从GitHub上看到一个向量拆分的算法,一起贴出来学习研究。VectorAssembler(特征向量合并)摘录官网翻译:VectorAssembler 是将给定的一系列的列合并到单个向量列中的transformer。它可以将原始...原创 2018-07-17 17:49:43 · 4565 阅读 · 1 评论 -
Spark读取JSON的小扩展
Spark读取JSON的小扩展版本说明:spark 2.3前言前几天在群里摸鱼的时候,碰都一位同学问了一个比较有趣的问题,他提问:Spark如何读取原生JSON?看到这个问题,心里有些疑惑,Spark不是有JSON数据源支持吗,怎么这里还要问如何读取原生JSON,这原生JSON又是什么鬼?经过交流才明白,原来他所说的原生JSON是类似如下这种格式:{ "昌平区东小": [ ...原创 2019-06-15 11:34:54 · 6532 阅读 · 3 评论