Spark本地调试遇到的 CheckPoint 序列化问题和org.apache.hadoop.nativeio.NativeIO$windows.createFilewithMode0

最新推荐文章于 2023-05-16 09:54:31 发布

chixushuchu

最新推荐文章于 2023-05-16 09:54:31 发布

阅读量891

点赞数

分类专栏： sparkstreaming 文章标签： sparkstreaming 本地调试错误

本文链接：https://blog.csdn.net/chixushuchu/article/details/102663202

版权

sparkstreaming 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一个问题

Dstream checkpointing has been enabled but the Dstreams with their functions are not serializable

原因是创建JSSC的函数使用到 set参数，不能使用原生的 map.keyset因为不支持序列化

通过spark消费kafka 并且元数据通过checkpoint保存

  Function0<JavaStreamingContext>  createContextFunc= () -> createContext(conf);
  JavaStreamingContext jssc = CommonUtil.getJavaStreamingContext(
                ConfigurationManager.getProperty("spark.CheckPointPath"), createContextFunc);

问题是创建函数里用到了通过读取redis保存的topic-partition map信息直接使用的map.keyset 但是map.keyset是不可序列化的

解决办法

new HashSet<>(map.keyset())

第二个问题

org.apache.hadoop.nativeio.NativeIO$windows.createFilewithMode0

解决

解决方案移除 hadoop.dll

参考：

https://stackoverflow.com/questions/51680277/java-lang-unsatisfiedlinkerror-org-apache-hadoop-io-nativeio-nativeiowindows-c

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chixushuchu

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark13：Spark程序性能优化01：高性能序列化类库、持久化或者checkpoint、JVM垃圾回收调优、提高并行度、数据本地化

weixin_40612128的博客

03-09

339

一、性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽。 Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。 Spark性能优化，其实主要就是在于对内存的使用进行调优。通常情况下，如果你的Spark程序计算的数据量比较小，并且你的内存足够使用，那么只要网络不至于卡死，一般是不会有大的性能问题的。但是Spark程序的性能问题往往出现在针对大数据量进行

Spark常见问题解决-日志和排查办法

someInNeed的博客

01-25

487

（3）查看是否任务参数设置不合理，例如executor-memory是设的大，但是--num-executors设置的很少才几十个，可以根据集群情况和业务量大小合理增大executor数，数量判断标准是一个executor的CPU core同一时刻尽量只处理一个HDFS block的数据（如128或256M），在没有设置--executor-cores等参数的情况下，默认一个executor包含一个CPU core。elasticsearch-hadoop使用的就是HTTP方式连接的ES集群。

参与评论您还未登录，请先登录后发表或查看评论

spark中的序列化问题

洛云凡

11-28

1039

在spark中4个地方用到了序列化： 1、算子中用到了driver定义的外部变量的时候 2、将自定义的类型作为RDD的泛型类型，所有的自定义类型对象都会进行序列化 3、使用可序列化的持久化策略的时候。比如：MEMORY_ONLY_SER，spark会将RDD中每个分区都序列化成一个大的字节数组。 4、shuffle的时候任何分布式系统中，序列化都扮演着一个很重要的角色。如果使用的序...

本地调试spark报org.apache.hadoop.io.nativeio.NativeIO$Windows.createFile...

weixin_34126557的博客

12-24

495

本地调试spark，saveAsText()报错 org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String；JJJI)Ljava/io/FileDescriptor？解决办法：将hadoop.dll删掉 ...

org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io..

Gamedev

01-26

1332

这是在Windows环境下执行Spark程序时出现的，本人的windows系统中安装的是Hadoop2.7.5包，可跨windows平台执行的包已发布在csdn下载栏中，【点击获取】执行Spark程序，saveAsTextFile(path)函数时出现异常 An exception or error caused a run to abort: org.apache.hadoop.io.n

spark 序列化

yang灬仔

12-02

1731

数据序列化 序列化在分布式应用中起到很重要的作用。那些会让对象序列化过程缓慢，或是会消耗大量字节存储的序列化格式会大大降低计算速率。通常这会用户在优化Spark应用程序中的第一件事。Spark旨在在便利(允许您使用您的操作中的任何Java类型)和性能之间实现平衡。它提供了下面两种序列化库： Java serialization：Spark默认使用Java的ObjectOutput...

2.SparkCore-RDD编程

weixin_44085996的博客

09-15

206

二、 RDD编程 1、编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。要使用Spark，开发者需要编写一个Drive

spark 在集群运行时遇到的一些问题

Ichimaru_Gin_的博客

04-03

4172

人工导航：1，Exceptionin thread "main"org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/pangying/.sparkStaging/application_1522735609126_0001/__spark_libs__4275647205298765018.zipcould o...

sparkstream消费kafka序列化报错

qq_45014844的博客

08-21

2826

本篇介绍在window运行环境下，使用spark消费kafka数据遇到的几个坑。。调试环境IDEA //依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.7</version>

spark-Checkpoint容错恢复(超级详细)

互联网知识分享

05-16

250

而checkpoint执行完之后，rdd已经没有之前所谓的依赖rdd了，而只有⼀个强⾏为其设置的checkpointRDD，checkpoint之后rdd的lineage就改变了。）checkpoint的元数据会记录jar的序列化的二进制文件，因为你改动过代码，然后重新编译，新的序列化jar文件，在checkpoint的记录中并不存在。（1）当我们spark 的容错机制使得某个任务或数据块丢失，都可以从最开始的数据源重新获取数据计算，然后恢复数据块和任务，如果计算比较多，计算链比较长，这个恢复过程就很长。

IDEA中通过Java的API操作MapReducer报错org.apache.hadoop.io.nativeio.NativeIO$Windows...的解决办法(进来看一下)-附件资源

03-02

IDEA中通过Java的API操作MapReducer报错org.apache.hadoop.io.nativeio.NativeIO$Windows...的解决办法(进来看一下)-附件资源

Hadoop 2.7.4 Windows 64位编译bin（包含winutils.exe, hadoop.dll等）

03-03

解决hadoop版本不同而引起的org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

SparkStreaming使用checkpoint存在的问题及解决方案

跳跃的list

09-24

1028

SparkStreaming使用checkpoint存在的问题及解决方案 sparkstreaming关于偏移量的管理转存失败重新上传取消在 Direct DStream初始化的时候，需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置读取并处理消息处理完之后存储结...

ssg-2015.06.15~2015.06.18 总结

weixin_30593443的博客

06-23

155

目前 ssg内公司内部 spark streaming 处理数据源是kafka 目前遇到最大的问题是，会延迟，例如我们配置1分钟让窗口计算一次，很有可能随着数据量大，我们计算时间会超过1分钟，这样就会导致卡死在哪里，streaming一直累计算出不了结果，而且从监控还看不出有问题，只有从结果监控发现结果出不来。解决方案：增加kafka的partition配置，配合st...

第7课：Spark Streaming源码解读之JobScheduler内幕实现和深度思考

段智华的博客

05-22

1267

第7课：Spark Streaming源码解读之JobScheduler内幕实现和深度思考 /* 王家林老师授课http://weibo.com/ilovepains 每天晚上20：00YY频道现场授课频道68917580*/ 1,JobScheduler内幕实现 2，JobScheduler深度思考 JobScheduler是整个spark streaming调度的核心，相当于DA

Spark流编程指引（五）-----------------------------DStreams上的转换操作

happyAnger6的专栏

07-08

3898

与RDDs类似，转换操作允许来自输入DStreams的数据被修改。DStreams支持许多在通常Spark RDD上的转换操作。下面是一些常见的：转换含义 map(func) Return a new DStream by passing each element of the source DStream through a function func.

Spark Streaming之二：DStream解析

Spark MLlib 机器学习

01-24

9217

1.0前言目前Spark Streaming编程指南地址： http://spark.apache.org/docs/latest/streaming-programming-guide.html 1.1 基本说明 1.1.1 Duration Spark Streaming 的时间类型，单位是毫秒；生成方式如下：

Spark Streaming之三：DStream解析

weixin_34337381的博客

04-04

185

DStream 1.1基本说明 1.1.1 Duration Spark Streaming的时间类型，单位是毫秒；生成方式如下： 1）new Duration(milli seconds) 输入毫秒数值来生成； 2）seconds(seconds) 输入秒数值来生成； 3）Minutes(minutes) 输入分钟数值来生成； 1.1.2 slideDuratio...

Spark本地调试和程序重启checkpoint恢复碰到的问题

qq_38019655的博客

09-29

1494

Spark本地调试和程序重启checkpoint恢复碰到的问题 1、产生问题的背景　　今天自测Spark程序碰到两个问题，(1)、启动流式程序报错 (2)、重启Spark程序,同一个对象的部分数据恢复了，一部分没有恢复　　第一个问题的报错信息：　　第二个问题的结果信息： 2、排查问题的原因　　第一个问题的原因是:没有配置hadoop的环境变量,导致在写checkpoint数据的时候报错了...

ERROR org.apache.hadoop.hdfs.server.namenode.Seconda ryNameNode: Exception in doCheckpoint