- 博客(1)
- 资源 (6)
- 收藏
- 关注
原创 Spark同步数据到线上数据库的一个坑
背景使用PySpark抽取数据同步到数据库时候(例如:clickhouse、mysql等数据库),使用RDD的foreachPartition、mapPartitions或mapPartitionsWithIndex等函数发现有的分区会执行多次,导致重复同步数据问题。原因及解决方案可以通过mapPartitionsWithIndex的函数打印partitionIndex,然后在日志查看的方式...
2019-08-23 17:09:10 1163 1
nm-local-dir(删除jar版).zip
2020-04-06
scrapy入门例子-tutorial
2015-08-29
jQuery特效之浮动div模式框
2015-01-26
理解的ThreadLocal类的相关源码(用于博文引用源码下载)
2014-08-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人