Python(pyspark)和Scala连接MongoDB

最新推荐文章于 2024-07-20 00:19:29 发布

Cheak Gallagher

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量1.1k

点赞数 2

分类专栏：数据库读写文章标签： pyspark scala spark mongodb python

本文链接：https://blog.csdn.net/qq_39486346/article/details/86021682

版权

数据库读写专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Python(pyspark)和Scala连接MongoDB

最近在使用spark读取MongoDB的数据，处理后再存回MongoDB，这里把存取的方式做个小总结。

准备工作

首先需要去Maven库下载连接MongoDB的jar包
下载对应版本的jar包

Python(pyspark)连接MongoDB

读取MongoDB：

   # 创建sparkSession对象
    my_spark = SparkSession \
        .builder \
        .appName("myApp") \
        .config('spark.debug.maxToStringFields', '100') \  # 指定字段值的大小，如果字段值大于词设定值，会有类似Truncated the string representation of a plan since it was too large的警告
        .getOrCreate()
    pwd = parse.quote_plus("Gouuse@spider") # MongoDB数据库的密码
    # 连接MongoDB
    data = my_spark.read.format("com.mongodb.spark.sql").option("spark.mongodb.input.uri",
                                                                      "mongodb://gouuse:{}@127.0.0.0:27017/testdb.myCollection"
                                                                      .format(pwd)).load()

写出到MongoDB：

data.write.format("com.mongodb.spark.sql").option("spark.mongodb.output.uri",
                                                  "mongodb://gouuse:{}@127.0.0.0:27017/testdb.mycollection"
                                                  .format(pwd)).mode("overwrite").option('batchsize', '1000').save()

Scala连接MongoDB

# 方式一
import org.apache.spark.sql.SparkSession
object test {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
          .appName("MongoSparkConnectorIntro")
          .getOrCreate()
    val data= spark.read.format("com.mongodb.spark.sql").option("spark.mongodb.input.uri",
                                                                       "mongodb://localhost:27017/testdb.hero").load()
    data.show(33,false)
    	}
    }
# 方式二
import org.apache.spark.sql.SparkSession
import com.mongodb.spark._
object test {
  def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder()
          .appName("MongoSparkConnectorIntro")
          .config("spark.mongodb.input.uri", "mongodb://127.0.0.1/testdb.ets_linkedin_v000020_weight_yp")
          .config("spark.mongodb.output.uri", "mongodb://127.0.0.1/test.myCollection")
          .getOrCreate()
        val rdd = MongoSpark.load(spark)
        rdd.toDF().show(33, false)
        	}
        }