【Spark】MLlib mark a demo（二）

最新推荐文章于 2020-11-03 16:56:30 发布

孙文旭

最新推荐文章于 2020-11-03 16:56:30 发布

阅读量160

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_35495339/article/details/98999124

版权

Spark 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

标记一个DEMO以便于后面复习

DEMO背景阿里天池竞赛系列口碑商家客流量预测

第二步数据整理

星期几	第几天	商家id	浏览量	购买量
星期一	1	1024	600	342

package com.huadian.bigdata.ijcai

import java.util.Date

import org.apache.spark.sql.{SaveMode, SparkSession}

object IJCAIUserCountSpark {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("SparkSQLDemo")
      .master("local[5]")
      .config("spark.sql.shuffle.partitions",2)
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")
    import spark.implicits._

    /**
      * 统计 训练 数据集 中各个 商家 每天的用户浏览数和用户支付数
      * date_str,shop_id,count_visit,count_pay
      */
    //统计训练用户浏览量数据
    val trinUserViewDf = spark.read
      .option("header","true")
      .csv("file:///F:/IJCAI/train_user_view")

    trinUserViewDf.createOrReplaceTempView("view_tmp_train_user_view")

    val trainPerDayUserVisitCountDF = spark.sql(
      """
        |select
        | substring(time_stamp,0,10) as date_str,
        | shop_id,
        | count(1) as count_visit
        |from
        |   view_tmp_train_user_view
        |group by
        |   substring(time_stamp,0,10),shop_id
      """.stripMargin)
    trainPerDayUserVisitCountDF.show(20,false)


    //对用户支付行为数据统计，使用DSL
    val trainUserPayDF = spark.read
      .option("header","true")
      .csv("file:///F:/IJCAI/train_user_pay")


    val trainPryDayUserPayCountDf = trainUserPayDF
      .selectExpr("substring(time_stamp,0,10) as date_str","shop_id")
      .groupBy($"date_str", $"shop_id").count()
      .selectExpr("date_str","shop_id","count as count_pay")

    trainPryDayUserPayCountDf.show(20)

    spark.udf.register(
      "get_weekday",
      (dateTime:String)=>{
        import java.text.SimpleDateFormat
        val f: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd")
        val f1: SimpleDateFormat = new SimpleDateFormat("EEEE")
        val dd: Date =f.parse(dateTime)
        f1.format(dd)
      }
    )
    spark.udf.register(
      "get_day_week",
      (dateTime:String)=>{
        import java.text.SimpleDateFormat
        import java.util.Calendar
        val f: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd")
        val cal: Calendar = Calendar.getInstance
        // 获得一个日历
        try {
          val datet = f.parse(dateTime)
          cal.setTime(datet)
        } catch {
          case e:Exception =>
            Nil
        }
        cal.get(Calendar.DAY_OF_WEEK)-1 // 指示一个星期中的某天。
      }
    )

    //合并结果:每天各个商家 浏览量和 客户支付量统计
    val trainPrerDayUserDF  =trainPerDayUserVisitCountDF
      .join(trainPryDayUserPayCountDf,Seq("date_str", "shop_id"))
      //对于特征值来讲，我们需要的是周一
      .selectExpr(
      "get_weekday(date_str) as weekday", //将日期转成 星期几
      "get_day_week(date_str) as  day_week",//一周的第几天
      "shop_id","count_visit","count_pay"
    )

    trainPrerDayUserDF
      .coalesce(1)
      .write
      .mode(SaveMode.Overwrite)
      .option("header","true")
      .csv("file:///F:/IJCAI/train_user_visit_pay")


      spark.close()

  }
}

孙文旭

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark】MLlib mark a demo（二）

标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列口碑商家客流量预测第二步数据整理星期几第几天商家id浏览量购买量星期一11024600342package com.huadian.bigdata.ijcaiimport java.util.Dateimport org.apache.spark.sql.{SaveMode, Spa...
复制链接

扫一扫