Spark Kryo serialization

最新推荐文章于 2020-08-07 13:43:52 发布

cllblogs

最新推荐文章于 2020-08-07 13:43:52 发布

阅读量252

点赞数

分类专栏： spark 文章标签： spark kryo

本文链接：https://blog.csdn.net/qq_34651991/article/details/102699335

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

准备测试数据

[hadoop@hadoop000 logs]$ ls -lh
总用量 150M
-rw-r--r--. 1 root root 150M 10月 22 00:29 access.log

测试

rdd.persist(StorageLevel.MEMORY_ONLY)

在这里插入图片描述

缓存占存储空间为 590.9MB ，接近原始数据大小的4倍（具体倍数不好说，但是起码2倍以上）

rdd.persist(StorageLevel.MEMORY_ONLY_SER)

在这里插入图片描述

缓存占存储空间为 111.1MB，远远小于 MEMORY_ONLY ，且比原始数据小

rdd.persist(StorageLevel.MEMORY_ONLY_SER)

val sparkConf = new SparkConf()
sparkConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
// 注意 此处只是设置了 没有 register

在这里插入图片描述

缓存占存储空间为 108.3MB，此种情况跟单单使用 ``rdd.persist(StorageLevel.MEMORY_ONLY_SER` ，效果差不多

rdd.persist(StorageLevel.MEMORY_ONLY_SER

val sparkConf = new SparkConf()
sparkConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
// AccessLog implements Serializable
sparkConf.registerKryoClasses(Array(classOf[AccessLog]))

在这里插入图片描述

缓存占存储空间为 76.6MB，此种情况节省的存储空间就很可观了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cllblogs

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark: org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

杨鑫newlife的专栏

04-23

1384

运行Spark程序的时候报出：Exception in thread "main" java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 3107 in stage 308.0 failed 4 times, most recent failure: Lost t...

Spark报错处理系列之：Kryo serialization failed: Buffer overflow. Available: 0, required: 12678.

热门推荐

临渊而立

04-05

2万+

最近在整理一个开发框架：主体：spring4+mybatis3+mysql前端：easyui 或者 Ace Admin，后者是一个基于bootstrap 的强大后台管理系统界面。集群：Tomcat+kryo+Redis其它：c3p0链接池、P6SPY作SQL跟踪、logback作日志。其中在整合kryo的时候，遇到了一些挑战，记录如下：问题一：在系列化有Hashtable、Hashmap之类的对象...

Spark将大量分区写入HDFS报错

就问你吃不吃药

12-01

1678

对大量的数据进行一系列的数据处理后DataFrame此时有2W个分区（170W条数据，因此每个分区数量只有几百条），此时使用parquet命令，将会往一个hdfs文件中同时写入了大量的碎文件。提示（省略无用信息）：WARN TaskSetManager: Lost task: org.apache.spark.SparkException: Task failed while writing r

spark Kryo serialization failed: Buffer overflow 错误

dawujiong2967的博客

12-14

1003

今天在写spark任务的时候遇到这么一个错误，我的spark版本是1.5.1. 1 Exception in thread "main" com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: 124 2 at com.esotericsoftware.kryo.i...

spark解决org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

onway_goahead的博客

08-07

876

pyspark --queue default\ --driver-memory 10G \ --executor-cores 6 \ --executor-memory 10G \ --executor-cores 6 \ --conf spark.kryoserializer.buffer.max=256m \ --conf spark.kryoserializer.buffer=64m \ --conf spark.driver.maxResultSize=4096m \ --conf spark.e

scala-报错集

weixin_37829839的博客

06-26

353

org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 32. To avoid this, increase spark.kryoserializer.buffer.max value. 序列缓存化溢出原因分析： RDD extends scal...

PLS-00402: alias required in SELECT list of cursor to avoid duplicate column

乔克速速

12-26

1万+

PLS-00402: alias required in SELECT list of cursorto avoid duplicate column 意思理解：指针里面有重复的数据当出现这个错误的时候，很可能是你游标中某个字段的别名与其他表中的字段名字重复了。请确保别名是唯一的。

【问题跟踪】KryoException: java.io.IOException: No space left on device

yhao2014的专栏

04-15

1万+

今天在对LDA进行不同参数训练模型，记录其avglogLikelihood和logPerplexity，以便判断模型训练是否收敛时，产生了一个令人极度崩溃的事儿：程序在辛辛苦苦跑了7.3h后...挂了！证据如下：早上一来看这张图，好像跑完了，然后点进去看...然后就没有然后了每次迭代都需要9min左右，迭代了近50次跟我说挂了，确实挺让人奔溃的。先说说我的配置以

com.esotericsoftware.kryo.KryoException: java.lang.IndexOutOfBoundsException的解决办法

谢彬のCSDN专栏

02-15

1万+

今天访问系统的管理后台的时候，突然间弹出一个很大的500错误：然后下载日志查看，发现报了下面的错误： com.esotericsoftware.kryo.KryoException: java.lang.IndexOutOfBoundsException 想想发现provider的pojo中增加了两个字段，然后发布到了服务器，consumer没有同步更新；按照正常的理解是我是增加...

spark kryo压缩报错问题

lhxsir的博客

07-29

1039

由于上游数据湖数据压缩格式改变使用spark sql的thrift jdbc接口查询数据时报错 19/07/29 06:12:55 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 4, svldl015.csvw.com, executor 1): org.apache.spark.SparkException: Kr...

浅谈Spark Kryo serialization

不见其长，日有所长

02-27

706

最近在使用spark开发过程中发现当数据量很大时，如果cache数据将消耗很多的内存。为了减少内存的消耗，测试了一下 Kryo serialization的使用代码包含三个类，KryoTest、MyRegistrator、Qualify。我们知道在Spark默认使用的是Java自带的序列化机制。如果想使用Kryo serialization，只需要添加KryoTest类中的红色部分，指定spa...

【大数据进击】如何设置spark.kryoserializer.buffer.max value

Jweilai

08-01

1万+

如何设置spark.kryoserializer.buffer.max value 在运行Spark计算任务时，出现了Buffer Overflow错误，Kryo序列化在序列化对象时缓存爆了。反复设置了几次，终于发现了自己的错误，分享出来，希望大家能避坑。设置Kryo为序列化类 //设置Kryo为序列化类（默认为Java序列类） sparkConf.set("spark.serialize...

com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: 1

luojinbai的专栏

12-19

1万+

com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: 1 at com.esotericsoftware.kryo.io.Output.require(Output.java:138) at com.esotericsoftware.kryo.io.Output.writeB

关于spark运行FP-growth算法报错com.esotericsoftware.kryo.KryoException

Running_you

02-05

4164

Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是，照搬官方提供的python案例源码时，爆出该错误com.esotericsoftware.kryo.KryoException (java.lang.IllegalArgumentException: Can not set final scala.collection.mutable.ListBuffer f

java spark kryo序列化案例

04-03

在Spark中，使用Kryo作为默认的序列化框架可以显著地提高性能。下面是一个使用Kryo序列化的案例： ```java import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache....