Spark连接Mongodb
注意:此处的mongodb的版本必须要高于3.2
进入mongodb创建库
> use events_db
在此库中建立表并插入几条数据
此处的users如果表中没有的话,mongodb会自己创建
> db.users.insert({"name":"luozi","age":"25"})
WriteResult({ "nInserted" : 1 })
去另一页面的目录中
spark-shell --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/events_db.users?readPreference=primaryPreferred" --conf "spark.mongodb.output.uri=mongodb://127.0.0.1/events_db.users" --packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.2
以上的代码输入后会下载东西,进入spark-shell及为成功
然后开始导包
scala> import com.mongodb.spark.MongoSpark
scala> val df=MongoSpark.load(spark)
df: org.apache.spark.sql.DataFrame = [_id: struct<oid: string>, name: string]
scala> df.show(false)
+--------------------------+-----+
|_id |name |
+--------------------------+-----+
|[5eecaafcc9e38b2d6af3240b]|cai |
|[5eecaca3c9e38b2d6af3240c]|luozi|
+--------------------------+-----+