Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka010/KafkaUtils
最近在自己搭建的hadoop集群和spark集群深入学习kafka,有段时间没使用,都快忘记了,记录一下遇到过的坑。
由于是第一次搭建的环境,hadoop的lib目录以及spark的jars目录只有一些核心的jar包,如果开发中用到了其他的jar包,是需要导入到集群的目录中,这样打包程序就放集群跑即可,不用打包的时候将所有依赖jar都打包放服务器(每个服务打包都这样做,占用服务器的磁盘空间很大,而且还需要指定jar的位置,因此将需要用到的jar包放到服务器的目录是很好的方式)。
我的sparkstreaming使用direct方式读取kafka的数据,在本地能运行,但是打包程序在服务器就出错了,如下图
图中已经提示了是ClassNotFound,也就是没有找到这个类,具体的jar是org.apache.spark.streaming.kafka010这个,因为maven本地的依赖是有的,因此能够正常运行,但是新搭建的spark集群没有,在安装saprk目录下的 jars目录可以找到有哪些jar包,发现是没有sparkstreaming结合kafka的这个jar,因此从本地上传jar包到spark安装目录的jars目录中,然后重新运行,就可以了,我这里由于将结果放到mysql,还报错com.mysql.jdbc.Driver,如下图:
去jars目录发现确实没有mysql连接器,将mysql的连接器上传后,重新运行,一切正常!。