Spark
NeverMore丶
这个作者很懒,什么都没留下…
展开
-
Spark 两个RDD按key合并(join算子和cogroup算子)
在工作中经常遇到需要合并RDD的情况,记录下处理情况。join和cogroup算子都能达到要求,按key合并,只是当rdd存在多个相同的key时候,最终的输出结果不一样。网上找到了处理情况,自己也测试了,代码如下: object Test { def main(args: Array[String]): Unit = { val spark = SparkSession.buil...转载 2018-07-17 13:24:41 · 9303 阅读 · 0 评论 -
Intellij Idea远程调试利用docker部署的spark集群(standalone)的端口问题
因正式环境和本地网络策略不通(docker宿主机无法和我自己的电脑互相ping通),无法通过Idea直接调试任务,总不能每次都打包吧,太痛苦了。一直使用本地模式,也无法测试任务的真实运行情况。打开网络策略,运维需要指定端口号,借机了解了spark的两个参数:spark.driver.host、spark.driver.port和spark.blockManager.port。 host就...原创 2018-07-12 17:20:53 · 1284 阅读 · 0 评论