spark core dump问题分析

最新推荐文章于 2024-05-01 12:58:16 发布

*星星之火*

最新推荐文章于 2024-05-01 12:58:16 发布

阅读量938

点赞数

分类专栏： spark 文章标签： spark big data

本文链接：https://blog.csdn.net/spark_dev/article/details/120514750

版权

spark 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

spark core dump问题分析

spark 程序出现吐核 core dump报错
一、报错信息
二、分析思路
- 1.想确定什么是core dump,什么是吐核
- 2.问题分析思路
总结

spark 程序出现吐核 core dump报错

一、报错信息

driver日志：报错吐核

请添加图片描述

挂掉的executor日志请添加图片描述

nodeManager日志：（报错，吐核）![请添加图片描述](https://img-blog.csdnimg.cn/8e82450da24749d9b9924faec3cd25d3.jpg?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,tex

报的其他错误：系统的 xx.so包没加载成功
请添加图片描述

Internal Error (sharedRuntime.cpp:834), pid=***, tid=***
fatal error: exception happened outside interpreter, nmethods and vtable stubs at pc ***

下图日志：看上去是操作系统的*.so包的版本不匹配
在这里插入图片描述

二、分析思路

1.想确定什么是core dump,什么是吐核

Linux上Core Dump文件的形成和分析
https://www.cnblogs.com/jefree/p/4439034.html

Core，又称之为Core Dump文件，是Unix/Linux操作系统的一种机制，对于线上服务而言，Core令人闻之色变，因为出Core的过程意味着服务暂时不能正常响应，需要恢复，并且随着吐Core进程的内存空间越大，此过程可能持续很长一段时间（例如当进程占用60G+以上内存时，完整Core文件需要15分钟才能完全写到磁盘上），这期间产生的流量损失，不可估量。

凡事皆有两面性，OS在出Core的同时，虽然会终止掉当前进程，但是也会保留下第一手的现场数据，OS仿佛是一架被按下快门的相机，而照片就是产出的Core文件。里面含有当进程被终止时内存、CPU寄存器等信息，可以供后续开发人员进行调试。

关于Core产生的原因很多，比如过去一些Unix的版本不支持现代Linux上这种GDB直接附着到进程上进行调试的机制，需要先向进程发送终止信号，然后用工具阅读core文件。在Linux上，我们就可以使用kill向一个指定的进程发送信号或者使用gcore命令来使其主动出Core并退出。如果从浅层次的原因上来讲，出Core意味着当前进程存在BUG，需要程序员修复。从深层次的原因上讲，是当前进程触犯了某些OS层级的保护机制，逼迫OS向当前进程发送诸如SIGSEGV(即signal 11)之类的信号, 例如访问空指针或数组越界出Core，实际上是触犯了OS的内存管理，访问了非当前进程的内存空间，OS需要通过出Core来进行警示，这就好像一个人身体内存在病毒，免疫系统就会通过发热来警示，并导致人体发烧是一个道理（有意思的是，并不是每次数组越界都会出Core，这和OS的内存管理中虚拟页面分配大小和边界有关，即使不出Core，也很有可能读到脏数据，引起后续程序行为紊乱，这是一种很难追查的BUG）。

2.问题分析思路

按照文章中讲的： core dump是JVM出现问题后，事故保存现场的方法。就像heap dump一样。那么如果要知道准确的jvm问题，就需要分析core dump文件，而分析core dump文件很复杂。所以，知道是程序有问题后，就好解决，排查目前spark作业执行到哪步，分析这一步哪里需要分配巨大的堆内存或者栈内存，就能解决问题

总结

提示：这里对文章进行总结：

core dump是JVM出现问题后，事故保存现场的方法。就像heap dump一样。那么如果要知道准确的jvm问题，就需要分析core dump文件，而分析core dump文件很复杂。所以，知道是程序有问题后，就好解决，排查目前spark作业执行到哪步，分析这一步哪里需要分配巨大的堆内存或者栈内存，就能解决问题

*星星之火*

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark core dump问题分析

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档spark core dump问题分析spark 程序出现吐核 core dump报错一、报错信息二、分析思路1.想确定什么是core dump,什么是吐核2.问题分析思路总结spark 程序出现吐核 core dump报错一、报错信息driver日志：报错吐核挂掉的executor日志nodeManager日志：（报错，吐核）![请添加图片描述](https://img-blog.csdnimg.cn/8e82450d
复制链接

扫一扫