spark任务在执行过程中动态加载远程(hdfs)的jar包,并实例化对象进行逻辑处理。记录过程中遇到的类加载问题。
一、hdfs协议
在实现动态加载的过程中URLClassLoader需要支持hdfs协议,hadoop有现成的处理方式。通过调整UrlStreamHanderFactory来实现URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
备注:需要添加hadoop相关的jar包 hadoop-common和hadoop-hdfs
二、ClassLoader
在使用UrlClassLoader加载远程jar包的过程中,在java执行环境中UrlClassloader 默认使用系统的类加载器作为parent Classloader的,即:sun.misc.Launcher$AppClassLoader。然而spark内部运行提交的任务的过程中,线程的ClassLoader是MutableURLClassLoader,即:org.apache.spark.util.MutableURLClassLoader。
因此通过UrlClassLoader动态加载jar包并实例化对象的时候,会出出现无法找到类或者类型转换失败的异常。
解决办法:在使用UrlClassLoader动态加载远程资源时,将当前线程的类加载器作为parent ClassLoader
即:new URLClassLoader(new URL[]{fileUrl}, Thread.currentThread().getContextClassLoader())
三、JVM对象判定
在JVM中表示两个class对象是否为同一个类对象存在两个必要条件
1、类的全限定名必须一致。
2、加载类的ClassLoader必须相同。
在同一个JVM中,即使这个对象来源同一个Class文件,但只要加载它们的ClassLoader实例对象不同,那么这两个类对象也是不相等的。因为不同的ClassLoader实例对象都拥有不同的独立的类名称空间,所以加载的class对象也会存在不同的类名空间中。