大文件切分小文件

最新推荐文章于 2024-05-18 20:15:01 发布

jin6872115

最新推荐文章于 2024-05-18 20:15:01 发布

阅读量2.2k

点赞数

分类专栏： Spark 文章标签：大文件切分 spark

本文链接：https://blog.csdn.net/jin6872115/article/details/80777407

版权

用户日志数量：5千万，用户数目5000

需求：按照用户id将文件拆分成5000个小文件，文件已用户id作为文件名称

scala代码如下：可以快速得出结果

package cn.cslc.sdwd.log_AH

import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

/**
  * 大文件拆分小文件
  * 例如：用户行为日志：合计5千万条，用户数量5千，想要拆分为5000个以用户id为名字的文件
  * @Author :LPJ
  * @Date 2018/6/22 18:20
  */

//通过调用saveAsHadoopFile函数并自定义一个OutputFormat类
class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {
  override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String =
    key.asInstanceOf[String]
}
object SplitBigFile {

  def main(args: Array[String]): Unit = {
    //设置日志打印级别
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

最低0.47元/天解锁文章

jin6872115

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大文件切分小文件

用户日志数量：5千万，用户数目5000需求：按照用户id将文件拆分成5000个小文件，文件已用户id作为文件名称scala代码如下：可以快速得出结果package cn.cslc.sdwd.log_AHimport org.apache.hadoop.mapred.lib.MultipleTextOutputFormatimport org.apache.log4j.{Level, Logg...
复制链接

扫一扫

专栏目录