排查背景
最近在生产上部署 UDF 时,遇到一个两个环境完全相同,但是一个客户端报错另一个正常的情况,经过多次调试问题终于得以解决,现将解决思路记录一下,希望能对后来者有所帮助。(生产环境不便于截图。。。暂不展示了,各位脑补一下哈哈哈)
场景描述
由于两个环境的 CLASSPATH 完全相同,jar 包版本一致,但是有一个客户端报错,另一个客户端不报错,根据显示的报错信息(NullPointerException),初步猜测可能是由于加载的类不正确,导致代码报错,(由于是生产环境,没有远程调试环境,各位见谅)。
调试过程
- 由于怀疑是类加载的不正确,所以我们可以根据报错的堆栈信息确定是哪个类出了问题,然后可以确定该类是从哪个 jar 包中加载的,我们可以在虚拟机启动时设置虚拟机参数:
-XX:+TraceClassLoading
来输出类的加载信息,从而对比一下该类在不同的客户端是否来自同一个 Jar 包,经确认,在不同的客户端中,两个相同的类来自不同的 jar 包,说明该思路正确,确实是由于两个同名的类代码不同导致客户端报错。 - 下一步就是找出为什么一个客户端从 A.jar 中加载,而另一个类从 B.jar 中加载?由于两个环境完全相同,实在是搞不明白对于含有同名的类的加载顺序,由于时间有限,也不太可能去看 jvm 的源码,那就用最简单的方式,手撸一个相同场景,测试类的加载顺序!
- 分别在不同的 mode