spark 按id 分区多目录输出

最新推荐文章于 2023-01-14 15:15:17 发布

马行处

最新推荐文章于 2023-01-14 15:15:17 发布

阅读量915

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/qq_37928340/article/details/79088498

版权

    li = (id, line)
      }
      li
    }).partitionBy(new HashPartitioner(30)).saveAsHadoopFile("D:\\caIJIBAO\\out3.0\\out15\\"+"/multi",classOf[String],classOf[String],classOf[RDDMultipleOutPutFormat ])
  }
}
class RDDMultipleOutPutFormat extends MultipleTextOutputFormat[Any, Any]{
  override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String =
    (key+"/"+name)
}

object MultiOutFormat {

  def asNumber(a: Any) = a.asInstanceOf[AnyRef] match {
    case n: Number => true
    case _ => false
  }
}

优惠劵

马行处

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 按id 分区多目录输出

li = (id, line) } li }).partitionBy(new HashPartitioner(30)).saveAsHadoopFile("D:\\caIJIBAO\\out3.0\\out15\\"+"/multi",classOf[String],classOf[String],classOf[RDDMultipleOutPutFormat ]
复制链接

扫一扫