Spark core之按指定字段分类输出到多个文件

要求:按日志文件的指定字段分类,输出到多个文件(夹)。

思路:关键在于自定义类继承 MultipleTextOutputFormat 类,使用 saveAsHadoopFile。

def main(args: Array[String]): Unit = {
	…………
  val input = sc.textFile("data/access.log")
  input.map(x => {
    val splits = x.split("\t")
    (splits(1), x)   //这里写成<k,v>型,将指定字段作为key,使用partitionBy按key分类
  }).partitionBy(new HashPartitioner(3)) // 这里必须自定义分区器,否则每个类别会输出并行度个数个文件,且分区数需大于等于指定字段的分类结果数,小于会造成空文件夹
    .saveAsHadoopFile(output, classOf[String], classOf[String], classOf[RuozedataMultipleTextOutputFormat], classOf[GzipCodec])
  sc.stop()
}

class RuozedataMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {
  override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String = {
    s"$key/$key" // key即是指定字段,可用来做文件夹名,name也表示文件名(就是part*,没用)
  }
  override def generateActualKey(key: Any, value: Any): AnyRef = {
    NullWritable.get() //直接写null也行
  }
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值