spark sql dataframe操作

最新推荐文章于 2020-07-12 23:02:59 发布

qq_27593415

最新推荐文章于 2020-07-12 23:02:59 发布

阅读量410

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_27593415/article/details/53117468

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

package com.xmgps.yfzx.sparkhadoop

import com.xmgps.yfzx.sparkhadoop.TraceData.Trace
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object SparkHadoopFileDF {

    def main(args: Array[String]): Unit = {
      val path = "hdfs://mycluster/LINYUN/TAXIDATA/2016/11/09/TAXI20161109"

      val conf = new SparkConf().setAppName("spark sql dataframe").setMaster("local[1]")
      val sc = SparkContext.getOrCreate(conf)

      val sqlContext = new SQLContext(sc)

      import sqlContext.implicits._

      val traceRdd = sc.textFile(path)

      val traceDF = traceRdd.map(f => f + "end").map(_.split(",")).map(p => Trace(p(0),p(1),
        p(2).toLong,p(3).toLong,p(4),p(5),p(6).toLong,p(7).toLong,p(8).toInt,p(9).toDouble,p(10),p(11),p(12),p(13),
        p(14),p(15),p(16),p(17),p(18),p(19))).toDF()

      val result = traceDF.select("carNo","carColor").distinct().count()
      println(result)
    }
}

package com.xmgps.yfzx.sparkhadoop

/**
  * Created by JiKai Lin on 11/9/2016.
  */
object TraceData {

  case class Trace(
                    carNo: String, carColor: String, gpsTime: Long, sysTime: Long, vehicleStatus: String, alarmStatus: String,
                    longitude: Long, latidude: Long, height: Int, speed: Double, direction: String, totalKMS: String, attacheds: String,
                    enterPriseId: String, isResend: String, lineId: String, preStationOrder: String, preStationDist: String,
                    vec2: String, gnssCenterId: String
                  )
}

qq_27593415

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark sql dataframe操作

package com.xmgps.yfzx.sparkhadoopimport com.xmgps.yfzx.sparkhadoop.TraceData.Traceimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}object SparkHadoopFileDF {
复制链接

扫一扫