Spark_案例1先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数

在这里插入图片描述

字段说明 用下划线分隔开
时间
2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_37_2019-07-17 00:00:02_手机_-1_-1_null_null_null_null_3
2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_48_2019-07-17 00:00:10_null_16_98_null_null_null_null_19
2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_6_2019-07-17 00:00:17_null_19_85_null_null_null_null_7
2019-07-17_38_6502cdc9-cf95-4b08-8854-f03a25baa917_29_2019-07-17 00:00:19_null_12_36_null_null_null_null_5
0 1 2 3 4 5 6
2019-07-17_ 95_26070e87-1ad7-49a3-8fb3-cc741facaddf_37_2019-07-17 00:00:02_手机_-1_-1_null_null_null_null_3
2019-07-17_ 95_26070e87-1ad7-49a3-8fb3-cc741facaddf_48_2019-07-17 00:00:10_null_16_98_null_null_null_null_19
2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_6_2019-07-17 00:00:17 _null_19_85_null_null_null_null_7
2019-07-17_38_6502cdc9-cf95-4b08-8854-f03a25baa917_29_2019-07-17 00:00:19_null_12_36_null_null_null_null_5
2019-07-17_38_6502cdc9-cf95-4b08-8854-f03a25baa917_27_2019-07-17 00:01:05_i7 -1-1_null_null_null_null_17
2019-07-17_38_6502cdc9-cf95-4b08-8854-f03a25baa917_24_2019-07-17 00:01:07_null 5_39_null_null_null_null_10
2019-07-17_38_6502cdc9-cf95-4b08-8854-f03a25baa917_25_2019-07-17 00:01:13 i7 -1-1_null_null_null_null_24
2019-07-17_38_6502cdc9-cf95-4b08-8854-f03a25baa917_22_2019-07-17 00:01:21_null_19_62_null_null_null_null_20
2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_37_2019-07-17 00:00:02_手机
-1
-1_null_null_null_null_3
2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_48_2019-07-17 00:00:10_null_16_98_null_null_null_null_19

package com.rdd.topn

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
case class UserVisitAction(
date: String,//用户点击行为的日期
user_id: Long,//用户的ID
session_id: String,//Session的ID
page_id: Long,//某个页面的ID
action_time: String,//动作的时间点
search_keyword: String,//用户搜索的关键词
click_category_id: Long,//某一个商品品类的ID
click_product_id: Long,//某一个商品的ID
order_category_ids: String,//一次订单中所有品类的ID集合
order_product_ids: String,//一次订单中所有商品的ID集合
pay_category_ids: String,//一次支付中所有品类的ID集合
pay_product_ids: String,//一次支付中所有商品的ID集合
city_id: Long
)//城市 id

object HotCategoryTop10Analysis {
def main(args: Array[String]): Unit = {
//TODO Top10热门品类
val conf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“HotCategoryTop10Analysis”)
val sc = new SparkContext(conf)
val actionRDD: RDD[String] = sc.textFile(“in/user_visit_action.txt”)
//首先对数据进行过滤清洗先统计点击事件 品类ID不能为-1 如果是-1就不是点击事件
//1.统计品类的点击数量(品类ID,点击数量) 当第六个字段不是-1时,是点击事件
val clickActionRDD: RDD[String] = actionRDD.filter {
data => {
val arr = data.split("")
arr(6) != “-1” //如果第六个字段不是-1 就不是点击事件 直接过滤掉无用数据
}
}
val clickCountRDD: RDD[(String, Int)] = clickActionRDD.map(
action => {
var datas = action.split("
")
(datas(6), 1)
}
).reduceByKey(_ + )
//2.统计品类的下单、数量(品类ID,下单数量) 如果第八个字段肯定不能为Null
val orderActionRDD: RDD[String] = actionRDD.filter {
data => {
val arr = data.split("
")
arr(8) != “null” //如果第六个字段不是-1 就不是点击事件 直接过滤掉无用数据
}
}
val orderCountRDD: RDD[(String, Int)] = orderActionRDD.flatMap(
action => {
val datas = action.split("")
val cid = datas(8) //扁平化操作
val cids = cid.split(",")
cids.map(id => (id, 1))
}
).reduceByKey(
+ )
//3.统计品类的支付数量(品类ID,支付数量)
val payActionRDD: RDD[String] = actionRDD.filter {
data => {
val arr = data.split("
")
arr(10) != “null” //如果第六个字段不是-1 就不是点击事件 直接过滤掉无用数据
}
}
val payCountRDD: RDD[(String, Int)] = payActionRDD.flatMap(
action => {
val datas = action.split("")
val cid = datas(8) //扁平化操作
val cids = cid.split(",")
cids.map(id => (id, 1))
}
).reduceByKey(
+ )
//4将品类进行排序,并去除前十名
//(品类(点击数量,下单数量,支付数量))
//不同的数据源连接
//Join (参考内连接 丢失数据)多个数据源中数据不对等 有可能点击了 没下单 Join要求两边数据源相同KEY连接 可能丢失数据
// zip 要求分区中的数量位置有关系 不能用
// leftOuterJoin 以左边表为主 数据不合适
// cogroup 在自己的数据源中分组 再连接其他数据源 ==connect+group
// 组 点击数量 下单数量 支付数量
val cogroupRDD: RDD[(String, (Iterable[Int], Iterable[Int], Iterable[Int]))] = clickCountRDD.cogroup(orderCountRDD,payCountRDD)
val analysisRDD= cogroupRDD.mapValues {
case (clickIter, orderIter, payIter) => {
var clickCnt = 0
val iter1: Iterator[Int] = clickIter.iterator
if (iter1.hasNext) {
clickCnt = iter1.next()
}
var orderCnt = 0
val iter2: Iterator[Int] = orderIter.iterator
if (iter2.hasNext) {
orderCnt = iter2.next()
}
var payCnt = 0
val iter3: Iterator[Int] = payIter.iterator
if (iter3.hasNext) {
payCnt = iter3.next()
}
(clickCnt,orderCnt,payCnt)
}
}
val resultRDD= analysisRDD.sortBy(
._2,false).take(10)
resultRDD.foreach(println)
//5先按照点击 再按照下单 再支付
//元组排序 多个无关数据组成元组 先比较第一个 再第二个 一次类推
sc.stop()
}
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值