性能调优
神之凝视
这个作者很懒,什么都没留下…
展开
-
Spark SQL常用配置及性能优化
一.在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用dataFrame.cache()内存列式格式缓存表。然后,Spark SQL将仅扫描所需的列,并将自动调整压缩以最大程度地减少内存使用和GC压力。可以调用spark.catalog.uncacheTable(“tableName”)从内存中删除表或dataFrame.unCache()取消缓存。可以在SparkSession上使用setConf方法或使用SQL运行SET k原创 2020-10-24 19:52:00 · 2853 阅读 · 0 评论 -
Spark内存管理及调优
一.对象存储概述在调整内存使用中有三个方面需要考虑:对象存储所使用的内存【可能希望在内存中存储整个数据集,以方便使用】、访问这些对象的成本及垃圾回收的开销【对象更新频繁】。默认情况下,Java对象的访问速度很快,但是与其字段内的原始数据相比,它们很容易消耗2-5倍的空间。原因如下:每个不同的Java对象都有一个对象头,大约16个字节,其中包含诸如指向其类的指针之类的信息。对于其中数据很少的对象【例如一个Int字段】,该对象头大小可能大于数据本身。Java String类型相对于原始字符串数据有大约原创 2020-07-24 17:34:34 · 331 阅读 · 0 评论 -
Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize
一.异常信息Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize 1024M.Total size of serialized results of 12082 tasks is bigger than spark.driver.maxResultSize 1024M.Total size of serialized results of 12131 tasks is bigg原创 2020-06-29 17:21:54 · 5535 阅读 · 0 评论