java连接mongodb_pyspark 连接MongoDB遇到的问题记录

最新推荐文章于 2023-12-22 13:23:28 发布

weixin_39851974

最新推荐文章于 2023-12-22 13:23:28 发布

阅读量330

点赞数

文章标签： java连接mongodb

之前一直是使用的python库pymongo来连接的MongoDB，最近想尝试下Spark，看看是否会加快处理速度，但是又不会JAVA，所以选择了pyspark

pyspark虽然是一个python库，但是需要你预先在电脑装Spark才行，安装的话可以去spark官网下载（Downloads | Apache Spark）

这里建议把对应的Hadoop也装上（

Index of /dist/hadoop/common/hadoop-2.7.6

）

安装spark前需要安装jave和scala
Windows环境下需要修改环境变量JAVA_HOME和HADOOP_HOME为你安装jave和hadoop的目录
windows下需要安装 winnutils https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
需要把winnutils放到Hadoop的bin目录下，比如C:Hadoophadoop-2.7.6bin
如何用winutils, 现在C盘创建tmphive的文件夹，然后打开cmd， cd到C:Hadoophadoop-2.7.6bin，输入winutils.exe chmod 777 tmphive，这个是用来设置权限的，否则跑脚本的时候会提示权限不足

这个是由于没有设置HADOOP_HOME的原因

2. java.lang.ClassNotFoundException: Failed to find data source: com.mongodb.spark.sql.DefaultSource.

这个需要指定spark.jars.packages，

如果是spark2.0 可以用org.mongodb.spark:mongo-spark-connector_2.11:2.3.2

如果是spark3.0 可以用org.mongodb.spark:mongo-spark-connector_2.12:3.0.0

from

列一下我使用的版本

JAVA: 15.0.1

Scala:2.13.3

spark: 3.0.1

Hadoop:2.7.6

关注