本文不涉及hadoop,因为本人是零基础开始,所以有许多不清楚的地方有待深入学习后才能继续。
- 依照spark mongodb connector的官方教程(java v2.1)下载所有依赖的类库,并编译出对应测试程序(如https://docs.mongodb.com/spark-connector/v2.1/java/write-to-mongodb/)的jar包。
- 将mongo-java-driver-3.4.2.jar,mongo-spark-connector_2.11-2.1.0.jar两个包复制到${SPARK_HOME}/jars/路径下面。
- 使用spark-submit命令将测试程序作为任务提交到spark,至此,不出意外的话,spark到mongodb的操作就会成功。
${SPARK_HOME}/bin/spark-submit --class "测试程序中main函数所在的类名" --master spark://[spark服务器地址]:[端口号,一般是7077] 测试程序的jar包存放路径(可以是绝对地址也可以是相对地址)