spark streaming scala-统计热门产品

原创 2018年04月17日 09:56:45

本文主要通过spark streaming实现top的热门产品统计

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.IntegerType
import org.apache.spark.sql.hive.HiveContext

/**
 * @author jhp
  *         spark streaming统计top产品
 */
object Top3HotProduct {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("Top3HotProduct")
    //实例化流上下文
    val ssc = new StreamingContext(conf, Seconds(1))
    
    val productClickLogsDStream = ssc.socketTextStream("spark1", 9999)  
    val categoryProductPairsDStream = productClickLogsDStream
        .map { productClickLog => (productClickLog.split(" ")(2) + "_" + productClickLog.split(" ")(1), 1)}
   //使用reduceByKeyAndWindow
    val categoryProductCountsDStream = categoryProductPairsDStream.reduceByKeyAndWindow(
        (v1: Int, v2: Int) => v1 + v2, 
        Seconds(60), 
        Seconds(10))  
    //RDD转换ROW
    categoryProductCountsDStream.foreachRDD(categoryProductCountsRDD => {
      val categoryProductCountRowRDD = categoryProductCountsRDD.map(tuple => {
        val category = tuple._1.split("_")(0)
        val product = tuple._1.split("_")(1)  
        val count = tuple._2
        Row(category, product, count)  
      })
      //实例化StructType
      val structType = StructType(Array(
          StructField("category", StringType, true),
          StructField("product", StringType, true),
          StructField("click_count", IntegerType, true)))
          //实例化HIVECONTEXT
      val hiveContext = new HiveContext(categoryProductCountsRDD.context)
      //创建DATAFRAME
      val categoryProductCountDF = hiveContext.createDataFrame(categoryProductCountRowRDD, structType)  
      //注册表
      categoryProductCountDF.registerTempTable("product_click_log")  
      //执行HIVESQL
      val top3ProductDF = hiveContext.sql(
            "SELECT category,product,click_count "
            + "FROM ("
              + "SELECT "
                + "category,"
                + "product,"
                + "click_count,"
                + "row_number() OVER (PARTITION BY category ORDER BY click_count DESC) rank "
              + "FROM product_click_log"  
            + ") tmp "
            + "WHERE rank<=3")
            
      top3ProductDF.show()
    })
    //启动
    ssc.start()
    ssc.awaitTermination()
  }
  
}

ASP、JSP与PHP的比较

 ASP、JSP与PHP的比较目前,最常用的三种动态网页语言有ASP(Active Server Pages),JSP(Java Server Pages),PHP (Hypertext Prepro...
  • golive
  • golive
  • 2001-02-15 14:13:00
  • 1934

第105讲 Spark Streaming电商广告点击综合案例在线点击统计实战项目第一天

本讲的目标是广告点击流进来,我们对它进行统计。首先实现对数据进行统计,后续十讲我们再做其它操作。 1:spark用scala开发,只能用java与数据库交互,用Hbase交互的时候,Spark在线上生...
  • qq_21234493
  • qq_21234493
  • 2016-05-23 06:42:10
  • 1323

第97讲:使用Spark Streaming+Spark SQL来在线动态计算电商中不同类别中最热门的商品排名,

package com.dt.streaming import org.apache.spark.SparkConf import org.apache.spark.sql.Row import o...
  • qq_21234493
  • qq_21234493
  • 2016-05-15 22:56:03
  • 832

第105课: Spark Streaming电商广告点击综合案例在线点击统计实战

第105课:  Spark Streaming电商广告点击综合案例在线点击统计实战 语言选择:Java中大规模项目开发(京东) Scala看Spark源代码 数据来自于kafka 1,复制代码 Spa...
  • duan_zhihua
  • duan_zhihua
  • 2016-05-18 21:16:23
  • 1699

第110讲: Spark Streaming电商广告点击综合案例通过updateStateByKey等实现广告点击流量的在线更新统计

package com.dt.spark.SparkApps.sparkstreaming; import java.sql.Connection; import java.sql.Dri...
  • qq_21234493
  • qq_21234493
  • 2016-06-05 20:10:28
  • 1283

第97课: 使用Spark Streaming+Spark SQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名

第97课: 使用Spark Streaming+Spark SQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名 本节课将在之前学习的Spark SQL和 DataFra...
  • duan_zhihua
  • duan_zhihua
  • 2016-05-04 20:03:39
  • 1076

第97课:Spark Streaming在线动态计算特定时间窗口下热门商品排名

使用Spark Streaming + Spark SQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名...
  • sd637
  • sd637
  • 2016-05-27 15:35:57
  • 1761

spark streaming 实时统计mysql

1.sparkStreamingDemo 由于这个demo需要spark 和jdbc 的依赖包。在pom.xml文件中如下(关于新建maven 的spark工程请参考idea 构建maven 管...
  • qq_35233716
  • qq_35233716
  • 2017-05-27 13:44:18
  • 372

sparkstreaming统计一段时间内的热搜词

sparkstreaming同时一段时间内的热搜词
  • high2011
  • high2011
  • 2016-06-04 18:44:05
  • 2443

用sparkstreaming按天计算地区销售额简单模版

producer端: import java.util.HashMap import org.apache.kafka.clients.producer.{KafkaProducer, Pro...
  • zengxiaosen
  • zengxiaosen
  • 2016-09-26 12:34:36
  • 1215
收藏助手
不良信息举报
您举报文章:spark streaming scala-统计热门产品
举报原因:
原因补充:

(最多只允许输入30个字)