Spark
iFence
微信公众号:大数据报文
展开
-
spark structured streamming 写出数据到kafka
前言导包等一些基础的准备问题就不说了,有问题留言。微信公众号:大数据报文Main虽然说的是streamming,但是这里会分别说流处理和批处理。流处理val ds = df//注意这里的as("value")是必须的,因为写入kafka的数据一定要有value,根据实际情况也需要指定key .selectExpr(formats($"USERID", $"ADDRE...原创 2020-03-27 09:35:43 · 302 阅读 · 1 评论 -
spark本地提交任务到远程集群报错:file does not exist
背景今天本来想测试一下Spark装到集群以外,远程提交任务试试。但是遇到了一些问题,这里记录一下。微信公众号:大数据报文环境在集群以外提交任务首先要安装Spark客户端,而Spark客户端又依赖Hadoop(当然这里并不是集群,只是把hadoop解压并配置好环境变量)。安装好以后使用spark-submit命令提交example中的Spark Pi程序到集群:./spar...原创 2019-12-12 10:07:38 · 4802 阅读 · 0 评论 -
persist、cache和checkpoint的区别与联系
相同点这这三个函数是出于不同情况下的容灾和性能考虑而出现的三个函数。他们的主要作用就是将中间结果缓存到存储介质中以便一定程度的对程序进行优化。但是如果不明白他们的区别与内涵还是很容易会用不好的。欢迎关注公众号:大数据报文persistpersist还是它们三个之中变换最多的函数,所以先从persist讲起。persist提供了很多常量参数作为存储等级: useDisk, u...原创 2019-12-08 17:38:01 · 845 阅读 · 0 评论 -
Spark 列转行操作
前言在MySQL和oracle中有列转行函数用于将列转成行。在大数据SQL中也有类似的操作。这里主要讲解Spark的列转行操作。欢迎关注微信公众号:大数据报文concat:多列合并在介绍列转行之前首先要说一下concat函数,为后面列转行做一下铺垫:-- mysql:可以一到合并多个值,无法使用分隔符,如果合并的值中有null,则合并的结果为nullselect con...原创 2019-12-08 12:10:49 · 1511 阅读 · 0 评论 -
Spark SQL批处理窗口函数的使用
前言Spark SQL 1.4.0引入了窗口化功能,使我们可以更轻松地处理行的范围或窗口。window函数对于DataFrame中的每一行都返回一个计算出的值,而groupBy则是对于一个group的key返回一个值。对于DataFrame中的每一行,WindowSpec指定了这行对应的一个WindowFrame,然后在这个WindowFrame上执行相关统计函数。还要注意,这里的窗口函数是用...原创 2019-12-08 11:59:22 · 317 阅读 · 0 评论 -
Spark编程之深入理解DataSet
1.前言DataSet是Spark重要的数据结构之一拥有比RDD更高的性能,比DataFrame更灵活的操作方式,是Spark SQL的扩展,提供了额外的编译时类型检查。本文将深入介绍DataSet的使用。从Spark2.0开始,DataFrame成为了DataSet的特例,即DataFrame是DataSet的特殊情况。DataFrame是操作Row对象的DataSet。当数据集可以被编...原创 2019-11-23 14:12:48 · 553 阅读 · 0 评论 -
一个令人惊讶的问题
今天遇到了一个让我无可奈何的问题,先记录一下,等找到原因再来填坑写spark streaming程序的时候,报了下面这个错误,大概就是jar包冲突的问题,但是看了网上的答案都没有解决Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Ls...原创 2019-07-04 00:17:39 · 468 阅读 · 1 评论 -
spark on yarn 查看结束APPLICATION的执行情况
需求有时候一个spark任务执行结束了,但是发现结果并不尽人意。这时候想要查看这个APPLICATION的执行情况,看一下是哪个地方出了问题导致程序执行的慢。但是再去yarn上去看的时候发现程序停止了,无法再查看web UI了该怎么办呢微信公众号:大数据报文解决方案虽然无法查看当前任务的实时执行情况了,但是spark提供了查看历史任务的功能。默认是关闭的。想要查看历史任务的...原创 2019-08-21 18:37:09 · 1938 阅读 · 0 评论 -
Windows连接远程hdfs出现java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComput错误
背景以前写spark都没有读取过hdfs文件,而是读取本地文件,今天试了一下读取公司服务器的文件,做一个简单的word count结果出问题了。Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuff...原创 2019-08-17 17:53:16 · 4410 阅读 · 4 评论