大数据-spark
文章平均质量分 69
工作多年遇到的问题,与一些总结,注意事项等,有些是源码级别的讲解,同时整个博客是成体系的,里面有很多连接互相连接,问题都是拆开的,能让大家遇到问题的时候方便的解决问题,或者提供思路。
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
九师兄
可免费问问题,可以一次订阅,终身免费问问题。工作多年遇到的问题,与一些总结,注意事项等,有些是源码级别的讲解,同时整个博客是成体系的,里面有很多连接互相连接,问题都是拆开的,能让大家遇到问题的时候方便的解决问题,或者提供思路。也可以单独找我解决问题。
展开
-
【Spark】Sprak RDD 持久化
此外,每个持久化RDD可以使用不同的存储级别去存储,允许你,例如,存在磁盘上的数据集,在内存中保存它但序列化的Java对象(节省空间),跨节点复制它,或者将它存储堆超光速粒子。的 cache()方法是一个缩写使用默认的存储水平,这是 StorageLevel.MEMORY_ONLY(反序列化对象存储在内存)。它可以在内存中计算或从另外一个数据集中恢复它(或从其派生的数据集)。spark的缓存是高度容错的——如果RDD的任意分区丢失,它将自动重新计算使用最初创建的 transformations。原创 2024-07-11 00:45:00 · 73 阅读 · 0 评论 -
【Spark】Sprak 监控
请注意,此信息仅用于默认应用程序的时间。查看web UI,集 spark.eventLog.enabled启动应用程序之前为true。这个配置火花日志引发事件编码在UI中显示的信息持久化存储。您可以访问该接口通过开放 http://:4040在一个web浏览器。如果在同一主机上运行多个SparkContexts,他们将开始连续绑定到端口4040(4041、4042、等)。每一个SparkContext启动一个web UI,默认情况下在端口4040上,显示有用的关于应用程序的信息。原创 2024-07-11 00:15:00 · 51 阅读 · 0 评论 -
【Spark】Spark 资源模型
1.6版本的上面两个是0.75,下面占用0.25,如果没有shuffle,那么storge会借用executor的内存。原创 2024-07-02 22:37:56 · 358 阅读 · 0 评论 -
【Spark】Spark 报错 To avoid this, increase spark.kryoserializer.buffer.max value
这里看到这里是默认初始化了一个字节数组作为缓冲区,我们可以在提交参数中增加这个值。根据报错找到报错位置。原创 2023-10-23 22:00:00 · 387 阅读 · 0 评论 -
【Spark】Spark一些面试题
spark 所有复杂一点的算法都会有 persist 身影, spark 默认数据放在内存,spark 很多内容都是放在内存的,非常适合高速迭代, 1000 个步骤只有第一个输入数据,中间不产生临时数据,但分布式系统风险很高,所以容易出错,就要容错, rdd 出错或者分片可以根据血统算出来,如果没有对父 rdd 进行persist 或者 cache 的化,就需要重头做。Spark 中的 partion 是弹性分布式数据集 RDD 的最小单元, RDD 是由分布在各个节点上的 partion 组成的。原创 2023-01-21 19:51:54 · 466 阅读 · 0 评论 -
【Spark】一条 SQL 在 Apache Spark 之旅(下)
1.概述转载学习: 一条 SQL 在 Apache Spark 之旅(下)终于到最后一篇了,我们在前面两篇文章中《一条 SQL 在 Apache Spark 之旅(上)》 和 《一条 SQL 在 Apache Spark 之旅(中)》 介绍了 Spark SQL 之旅的 SQL 解析、逻辑计划绑定、逻辑计划优化以及物理计划生成阶段,本文我们将继续接上文,介绍 Spark SQL 的全阶段代码生成以及最后的执行过程。2.全阶段代码生成阶段 - WholeStageCodegen前面我们已经介绍了从逻.转载 2022-04-17 21:17:51 · 695 阅读 · 0 评论 -
【Spark】一条 SQL 在 Apache Spark 之旅(中)
1.概述转载:一条 SQL 在 Apache Spark 之旅(中)在 《一条 SQL 在 Apache Spark 之旅(上)》 文章中我们介绍了一条 SQL 在 Apache Spark 之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。2.优化逻辑计划阶段 - Optimizer在前文的绑定逻辑计划阶段对 Unresolved LogicalPlan 进行相关 transform 操作得到了 Analyzed Logical Plan,这个 Analyzed Logi.转载 2022-04-17 21:01:27 · 405 阅读 · 0 评论 -
【Spark】一条 SQL 在 Apache Spark 之旅(上)
1.概述转载学习加深印象:一条 SQL 在 Apache Spark 之旅(上)Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Execution 之上的,如下图所示:.转载 2022-04-17 20:54:59 · 537 阅读 · 0 评论 -
【Spark】Spark SQL 物化视图技术原理与实践
1.概述转载:Spark SQL 物化视图技术原理与实践2.导言本文将基于 SparkSQL(2.4.4) + Hive (2.3.6), 介绍物化视图在SparkSQL中的实现及应用。3.什么是物化视图物化视图主要用于预先计算并保存表连接或聚合等耗时较多的操作的结果,这样,在执行查询时,就可以避免进行这些耗时的操作,从而快速的得到结果。物化视图使用查询重写(query rewrite)机制,不需要修改原有的查询语句,引擎自动选择合适的物化视图进行查询重写,完全对应用透明。它和视图的区别在于,物.原创 2022-01-03 16:52:07 · 578 阅读 · 1 评论 -
【Spark】Spark Class is not registered joins UnsafeHashedRelation kryo
1.概述Spark程序报错如下4.0版本 registrationRequired 的值默认为 false,升级到 5.0 后默认为 true,需要手动设置为 false原创 2021-12-23 21:30:16 · 287 阅读 · 0 评论 -
【Spark】Spark kafka because consumer rebalance same group id joined different streaming
1.概述spark读取kafka ,然后使用不同的消费组,居然报错如下看报错是说不同的stream要使用不同的groupid,但是我两个任务使用了不同的groupID啊 为啥还是会报这个错有点 有点怀疑是 reblance导致的,可能是如下问题导致的【Kafka】kafka 重平衡(Rebalance)【Kafka】Kafka 2.6新功能:消费者主动触发Rebalance有问题@我,喜欢解决问题 19:43:13【kafka】Kafka 2.3 空消费组延时rebalance有问题原创 2021-11-24 21:13:49 · 257 阅读 · 0 评论 -
【Spark】Spark ML 机器学习的一个案例
1.概述本次版本基于SPark 3.1package com.spark.mlimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.regression.LinearRegressionimport org.apache.spark.sql.SparkSession/** * * @author: chu原创 2021-11-20 10:34:36 · 1402 阅读 · 0 评论 -
【Flink】Flink kafka Spark 如何实现数据有序性
是这这样的。当初有个面试题,说怎么保证数据有序性。记得当初没有经验。然后就用了最笨的方法。有趣的是,我老大工作五六年了,也是这样想的,没有想到好方法,我们用的是笨的方法。以前老崇拜老大了,觉得很牛逼,现在发现,其实就是自己不知道,当我知道了没发现也没有那么神秘,而且想出来更多的方法了。原创 2021-05-22 22:28:48 · 1247 阅读 · 0 评论 -
【Spark】Spark cache 报错 Exception thrown in awaitResult
写了一段代码,如下,但是运行的时候,时不时报错错误如下java.lang.OutOfMemoryError: Java heap space 错误,这通常意味着在 Spark 应用程序执行过程中,JVM 的堆内存不足以容纳所有数据,导致了内存溢出错误。你调用了 cache() 方法试图缓存 DataFrame 或 RDD 的结果,但是由于数据集的大小超出了分配给 Spark Executor 的内存,导致了内存溢出错误。原创 2021-05-13 21:27:12 · 2338 阅读 · 2 评论 -
【Spark】Spark 报错 error writing stream metadata exitcode=1073741515
1.场景1根据博客:https://blog.csdn.net/psp0001060/article/details/83057663https://blog.csdn.net/lxpqxl/article/details/105553803两个博客都为解决原创 2021-04-21 21:39:18 · 547 阅读 · 0 评论 -
【Flink】Flink 或者 Spark the client is stop
现场一个环境,发现flink提交的客户端日志,打印了30G,在几分钟内就达到了这么大,而且无法打开查看,因为太大了。首先,flink客户端日志只是提交的日志,一般情况下不会太大,出现这种情况一定是有错误。然后我就删除了这个日志文件,然后重新启动任务,启动后,tail-f查看日志,发现日志在狂刷。日志报错内容如下看到这几个关键字的时候,我突然想到以前spark遇到的问题。【linux】linux一次杀死多个进程这个。现在我看看当前进程,结果发现有2个然后我将2个都杀死,然后重启就好了。...原创 2021-04-08 17:55:40 · 448 阅读 · 0 评论 -
[Spark] Yarn local-dirs are bad 导致节点处于不健康状态
1.背景在运行flink的时候报错,参考:然后在Yarn界面上看到如下2.原因分析之所以会有 local-dirs are bad,log-dirs are bad 报错,是因为在我们集群的 yarn-site.xml 里参数 yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 的默认值是 90%,到达到这个值会触发上述报错。客户的数据是存储在 Storage 里的,在进行计算之前需要将数.原创 2021-01-26 21:14:23 · 621 阅读 · 0 评论 -
【Spark】Spark Stream读取kafka写入kafka报错 AbstractMethodError
1.概述Exception in thread "main" java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Logging.scala:99) at org.apache.spark.streaming.kafka010.KafkaUtils$.initializeLogIfNecessary(KafkaUtils.scala:40) at org..原创 2021-01-17 22:16:23 · 646 阅读 · 0 评论 -
【Spark】Spark 2.4 Stream 读取kafka 写入kafka
1.概述昨天一网友写了一个spark程序 读取kafka写入kafka,结果数据就是无法写入,然后交给我看看,这个程序是spark stream ,这个东东我都没玩过,我用过spark structured streaming ,然后看了程序之后,几分钟跑通,spark我都已经一年没搞了,以为都忘记了,没想到宝刀未老。 <spark.version>2.4.0</spark.version> <dependency> <groupId>org.a.原创 2021-01-17 22:14:47 · 917 阅读 · 0 评论 -
【Spark】大数据+AI mettup【视频笔记】
1.概述spark 3 多了一个自适应处理逻辑,就是在执行几个execuplain之后,spark已经能够收集到机器的一些信息,然后就可以自适应,优化,该自适应优化,不是一次性优化完,是逐步随着运行,逐渐优化的。shuffle的数量。参考:spark 为什么总是起200个task案例可以看到对A表的操作很慢,导致其他任务都在等待他。改成如下A进行切分,B进行复制。可以看到运行时动态优化。2倍到18倍的性能提升。运行的时候,基于t2的结果,动态的给t1加上一个.原创 2020-08-19 23:40:41 · 471 阅读 · 0 评论 -
【Spark】Spark 3.0 支持 event logs 滚动
1.概述spark学习-58-Spark的EventLoggingListener这篇文章讲了Spark 2.0 相关的代码,主要是Event-log是怎么生成的。这里要看看Spark 3.0 做了什么优化?相信经常使用 Spark 的同学肯定知道 Spark 支持将作业的 event log 保存到持久化设备。默认这个功能是关闭的,不过我们可以通过 spark.eventLog.enabled 参数来启用这个功能,并且通过 spark.eventLog.dir 参数来指定 event log 保存.转载 2020-05-14 19:53:55 · 1034 阅读 · 0 评论 -
【Spark】扩展Spark Catalyst,打造自定义的Spark SQL引擎
1.概述转载自:扩展Spark Catalyst,打造自定义的Spark SQL引擎Apache Spark是大数据处理领域最常用的计算引擎之一,被应用在各种各样的场景中,除了易用的API,稳定高效的处理引擎,可扩展性也是Spark能够得到广泛应用的一个重要原因。Spark中最常见的扩展就是基于DataSource API添加对新数据源的支持,除了Spark内置的HDFS,S3,Kafka等数据源,Parquet,Orc,Avro等数据类型,还有很多第三方的DataSource Plugin使得Spa.转载 2020-05-14 09:13:05 · 1479 阅读 · 0 评论 -
【Spark】Spark的Kryo序列化
1.美图2.Spark序列化概述在Spark的架构中,在网络中传递的或者缓存在内存、硬盘中的对象需要进行序列化操作,序列化的作用主要是利用时间换空间:分发给Executor上的Task需要缓存的RDD(前提是使用序列化方式缓存)广播变量Shuffle过程中的数据缓存使用receiver方式接收的流数据缓存算子函数中使用的外部变量上面的六种数据,通过Java序列化(默认的序...转载 2020-04-30 10:55:33 · 2946 阅读 · 0 评论 -
【Spark】Spark Streaming的back pressure
1.美图在讲flink的back pressure之前,我们先讲讲Spark Streaming的back pressure。Spark Streaming的back pressure出现的原因呢,我想大家应该都知道,是为了应对短期数据尖峰。Spark Streaming的back pressure是从spark 1.5以后引入的,在之前呢,只能通过限制最大消费速度(这个要人为压测预估),对于基...转载 2020-04-15 08:36:26 · 710 阅读 · 0 评论 -
Spark SQL兼容Hive及扩展
https://blog.csdn.net/junerli/article/details/78654208原创 2020-07-03 20:54:22 · 921 阅读 · 0 评论 -
Spark Structured Kudu : RejectedExecutionException: Worker has already been shutdown
1.美图2.背景报错20/01/16 00:08:49 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 1.0 (TID 1, cdh-dev-node-119, executor 1, partition 0, PROCESS_LOCAL, 8074 bytes)20/01/16 00:08:50 WARN schedu...原创 2020-07-04 12:03:46 · 1854 阅读 · 0 评论 -
Spark : DNS resolution failed for url in bootstrap.servers xx:9092
1.美图2.背景最近有一个项目中用到spark 连接kafka的代码,然后开始运行的几个任务是没问题的,但是后来的任务就开始报错了。原来测试的时候:bootstrap.servers这个值一直写的是域名,然后生产和消费数据都没有问题。然后要升级服务,升级该服务,不涉及kafka的读取相关的变动。但是读取报错,如下,而且,使用ip是可以访问的,但是域名不可以。老的服务是可以的。Cause...原创 2020-07-04 12:03:39 · 2680 阅读 · 1 评论 -
Spark Structured : KuduException$OriginalException: Originalasynchronous stack trace
KuduExceptionSoriginalException: Originalasynchronous stack trace原创 2020-07-04 12:03:32 · 1891 阅读 · 0 评论 -
Spark代码生成技术之现象CodeGenerator
1.美图2.背景我今天看spark日志,发现跑出来的日志,没过一段就有一段日志如下20/01/03 16:57:42 INFO spark.ContextCleaner: Cleaned accumulator 186754420/01/03 16:57:42 INFO spark.ContextCleaner: Cleaned accumulator 186754320/01/03 ...原创 2020-07-04 12:03:25 · 1527 阅读 · 0 评论 -
Spark-Kudu报错:kudu.client.NonRecoverableException: The table was deleted: Table deleted at xxx
1.美图2.背景一个spark 写入到kudu 的程序,开始运行正常,后来报错了,错误如下Exchange hashpartitioning(magr_pos_id#549, 12)+- *(17) Project [data_dt#524, acct_id#525, corp_scale#65, magr_pos_id#549] +- SortMergeJoin [CUST_ID...原创 2020-07-04 12:02:28 · 1457 阅读 · 0 评论 -
Maven : JsonMappingException: Incompatible Jackson version: 2.9.5
1.美图2.背景出现这个问题之前先出现了问题:Maven: NoSuchMethodError fasterxml.jackson.core强行指定,无法排除可能因为升级的版本比较高了,导致问题,运行报错2019-12-26 19:34:56,432 ERROR org.apache.spark.sql.execution.streaming.MicroBatchExecution -[...原创 2020-07-04 12:01:20 · 1114 阅读 · 0 评论 -
Spark报错 Failed to send RPC xxx to/ip:43074 java.nio.channels.ClosedChannelException
1.美图2.背景是这样的,我写了一个spark程序,然后,运行的时候,我kiill yarn掉这个程序,然后发现程序报个错然后继续运行了。[deploy@cdh ~]$ yarn application --list19/12/17 13:47:39 INFO client.RMProxy: Connecting to ResourceManager at cdh.xxx.xx.loca...原创 2020-07-04 12:01:13 · 2175 阅读 · 0 评论 -
Spark报错: IOException: Bad connect ack with firstBadlink as xxx:500010
1.美图2.背景执行一个spark任务报错INFO: Exception in createBlockOutputStreamINFO - java.io.IOException: Bad connect ack with firstBadLink as ×.×.×.×:50010 at org.apache.hadoop.hdfs.DFSOutputStream$DataS...原创 2020-07-04 12:01:06 · 800 阅读 · 0 评论 -
启动Spark出现Operation category READ is not supported in state standby
1.美图2.背景运行spark任务报错 Operation category READ is not supported in state standby查看界面05的ip 是21104的ip 是 210然后总是报错这个,而且我把hdfs配置成都是211,也会报错,并且去找210后来我停止了211,然后等着210变成active,然后再次运行就可以了,然后再次启动211也是可...原创 2020-07-04 12:00:57 · 1797 阅读 · 1 评论 -
SparkSQL报错:UnresolvedException: Invalid call to dataType on unresolved object, tree: 'bb
1.美图2.背景 /** * 测试点:测试系统函数,能否支持 * 测试结果:报错 * Caused by: org.apache.spark.sql.catalyst.analysis.UnresolvedException: Invalid call to dataType on unresolved object, tree: 'bb */ @Test...原创 2019-12-02 16:00:20 · 5326 阅读 · 0 评论 -
Spark报错:JDOFatalInternalException: Error creating transactional connection factory
1.美图2.背景写了一个spark测试了 @Test def nowTest(): Unit ={ val spark = SparkSession.builder.appName("JavaStructuredKafka").master("local[4]").enableHiveSupport.getOrCreate val socketLine = spark....原创 2020-07-04 11:58:25 · 1144 阅读 · 0 评论 -
Spark structured 记录一次kudu扩容导致无法写入数据的问题
1.背景我们有个程序,是kafka写入到kudu,此时我们重启了一下任务,结果发现,任务运行后,就会卡主,提示是正在运行,但是实际上报错,打开日志,发现,一直报错找不到节点can not access rds03 ip not found 这样一看,大约猜到是kudu master返回的地址是 域名,而我们获取到域名后,要将数据写到对应的分区中,分区是一个未知的host所对应的机器,然后...原创 2020-07-04 11:57:53 · 1031 阅读 · 0 评论 -
Spark类型不匹配导致无法读取到数据
1.背景平台将kafka 注册成表,然后读取,select k.table, k.afterImage.eno from source_kafka k然后发现数据都是nulll这个原因是,数据和schema类型不匹配,如数据格式为{ "table": "TABLE_NOPRIMARY", "timestamp": "2019-03-04 10:00:00", ...原创 2020-07-04 11:58:16 · 1208 阅读 · 0 评论 -
Spark Structured : HIve jdbc方式访问待下划线的表,找不到表的错误
1.背景Spark Structured : HIve jdbc方式访问待下划线的表,找不到表的错误> select * from default._xd_after limit 1;> 报错> FALILED:ParseException line cannnot recognize input near 'default'.'_xd_after' in table...原创 2020-07-04 11:58:09 · 623 阅读 · 0 评论 -
Spark报错: Invalid Spark URL: spark://YarnScheduler@stream_test_nb:40659
Invalid Spark URL: spark://YarnScheduler@stream_test_nb:40659原创 2020-07-04 11:57:38 · 2470 阅读 · 0 评论