spark 关于数据格式的清洗

5 篇文章 0 订阅

需求: 原本的日志格式

183.136.128.154 - - [30/Jul/2016:10:56:24 +0800] "GET http://static.tx.wmpyol.com/play/play.html HTTP/1.1" 200 651 "-" "Go-http-client/1.1" Hit "C/200" Static "max-age=60" 0.115 59.49.85.145

要求的日志的格式

183.136.128.154 - - [30/Jul/2016:10:56:48 +0800] "GET /play/play.html HTTP/1.1" 200 651 "-" "Go-http-client/1.1" http://static.tx.wmpyol.com V1

url的分割  
  def subOfdata(url: String, isbase: Int): String = {
      val ff = url.split("/")
      val baseUrl = ff(0) + "//" + ff(2)
      val kk = url.substring(baseUrl.length)
      if(isbase == 1) {
    return  baseUrl;
     }else{
          return kk;
      }
  }


val data = sc.textFile("文件url")

data.map(_.split(" ")).map(x => (x(0)+" "+x(1)+" "+x(2)+" "+x(3)+" "+x(4)+" "+x(5)+" "+subOfdata(x(6),2)+" "+x(7)+" "+x(8)+" "+x(9)+" "+x(10)+" "+x(11)+" "+subOfdata(x(6),1)+" "+"V1")).saveAsTextFile("/usr/local/spark/spark/work/jjj")
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值