spark如何将数据写入mongo

最新推荐文章于 2022-04-14 20:33:21 发布

菜鸟很菜

最新推荐文章于 2022-04-14 20:33:21 发布

阅读量3.4k

点赞数 1

分类专栏：大数据文章标签： spark spark-mongo mongodb spark-mongodb 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/j754379117/article/details/106912502

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

业务中的数据库使用的mongo，离线使用spark计算的每天统计指标需要累加到历史指标中，然后将结果写到mongo库中。如果mongo库中已经有这条记录则覆盖，mongo库中没有此记录则为新增。

官方文档：https://docs.mongodb.com/spark-connector/master/java/write-to-mongodb/

根据此文档进行RDD写入，只会覆盖原有数据，无法更新，不符合需求。

Mongo Spark Connector不支持更新RDD，只有Dataset的数据形式才能更新；

所以将结果Dataset<Row>进行Append的形式写入mongo即可，因为mongo的主键是_id，所以要将Row的主键改成_id的列名。

具体实操如下：

Dataset<Row> rowDataset = spark.sql("select * from A");

Dataset<Row> mongoData = rowDataset.withColumnRenamed("itemId", "_id");

// Create a custom WriteConfig
Map<String, String> writeOverrides = new HashMap<>();
writeOverrides.put("collection", "test_collection");
WriteConfig writeConfig = WriteConfig.create(jsc).withOptions(writeOverrides);

MongoSpark.save(mongoData.write().mode(SaveMode.Append), writeConfig);

如果是Dataset<Object>形式的数据则调用.toDF()先转成Dataset<Row>

参考资料：https://www.jianshu.com/p/65f16fb61e96

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark如何将数据写入mongo

业务中的数据库使用的mongo，离线使用spark计算的每天统计指标需要累加到历史指标中，然后将结果写到mongo库中。如果mongo库中已经有这条记录则覆盖，mongo库中没有此记录则为新增。官方文档：https://docs.mongodb.com/spark-connector/master/java/write-to-mongodb/根据此文档进行RDD写入，只会覆盖原有数据，不符合需求。Mongo Spark Connector不支持更新RDD，只有Dataset的数据形式..
复制链接

扫一扫

专栏目录

菜鸟很菜 CSDN认证博客专家 CSDN认证企业博客

码龄12年

90: 原创

4万+: 周排名

129万+: 总排名

67万+: 访问

: 等级

4737: 积分

300: 粉丝

371: 获赞

154: 评论

2221: 收藏

私信

关注

热门文章

分类专栏

最新评论

cv2.imread, skimage.io.imread和keras.preprocessing.image.load_img的区别与转换
繁躍寂喆: 太nb了哥们儿，讲解的也很清晰，帮了大忙
强化学习入门总结
高性能服务器: 监督学习的特点是有一个“老师”来“监督”我们，告诉我们正确的结果是什么。在我们在小的时候，会有老师来教我们，本质上监督学习是一种知识的传递，但不能发现新的知识。对于人类整体而言，真正（甚至唯一）的知识来源是实践——也就是强化学习。比如神农尝百草，最早人类并不知道哪些草能治病，但是通过尝试，就能学到新的知识。学习与决策者被称为智能体，与智能体交互的部分则称为环境。智能体与环境不断进行交互，具体而言，这一交互的过程可以看做是多个时刻，每一时刻，智能体根据环境的状态，依据一定的策略选择一个动作（这里的策略指的是从环境状态到智能体动作或者动作概率之间的映射），然后环境依据一定的状态转移概率转移到下一个状态，与此同时根据此时状态的好坏反馈给智能体一个奖励。智能体可以根据环境的反馈调整其策略，然后继续在环境中探索，最终学习到一个能够获得最多奖励的最优策略。
强化学习入门总结
阿尔法羊: 赞，很全面
Caused by: java.lang.ClassNotFoundException: com.google.common.collect.Lists
肖波86440: 请大佬指点怎么找到这个依赖包的目录，万分感谢！
HBase: apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /hbase/hbaseid
只爱大锅饭: 终于找到个解决办法了，点赞

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。