Spark项目实战—电商用户行为分析

利用spark分析电商用户行为
摘要由CSDN通过智能技术生成

一、【SparkCore篇】项目实战—电商用户行为分析

前言:数据准备

我们看看在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求,所以在实现功能前,咱们必须先将数据准备好。

在这里插入图片描述
上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付

1、数据规则如下:

  1. 数据文件中每行数据采用下划线分隔数据
  2. 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种
  3. 如果搜索关键字为 null,表示数据不是搜索数据
  4. 如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据
  5. 针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品 ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 null 表示
  6. 支付行为和下单行为类似

2、详细字段说明:

在这里插入图片描述
在这里插入图片描述

3、样例类

//用户访问动作表
case class UserVisitAction(
 date: String,//用户点击行为的日期
 user_id: Long,//用户的 ID
 session_id: String,//Session 的 ID
 page_id: Long,//某个页面的 ID
 action_time: String,//动作的时间点
 search_keyword: String,//用户搜索的关键词
 click_category_id: Long,//某一个商品品类的 ID
 click_product_id: Long,//某一个商品的 ID
 order_category_ids: String,//一次订单中所有品类的 ID 集合
 order_product_ids: String,//一次订单中所有商品的 ID 集合
 pay_category_ids: String,//一次支付中所有品类的 ID 集合
 pay_product_ids: String,//一次支付中所有商品的 ID 集合
 city_id: Long
)//城市 id

(一)需求1:TOP10热门品类

在这里插入图片描述

1、需求说明

不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。

本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。

2、代码实现方案1

package req

import org.apache.spark.rdd.RDD
import org.apache.spark.{
   SparkConf, SparkContext}

object Spark01_req01_HotCategeryTop10 {
   
  def main(args: Array[String]): Unit = {
   

    //TODO 热门品类
    val sparkconf: SparkConf = new SparkConf().setAppName("hotCategery").setMaster("local[*]")
    val sc: SparkContext = new SparkContext(sparkconf)

    //1、读取原始日志数据
    val actionRDD: RDD[String] = sc.textFile("data/user_visit_action.txt")
    actionRDD.cache() //调用缓存

    //2、统计品类的点击数量:(品类id,点击数量)
    val clickActionRDD: RDD[String] = actionRDD.filter(
      action => {
   
        val datas = action.split("_")
        datas(6) != "-1"
      }
    )

    val clickcountRDD: RDD[(String, Int)] = clickActionRDD.map(
      action => {
   
        val datas = action.split("_")
        (datas(6), 1)
      }
    ).reduceByKey(_ + _)

    clickcountRDD.sortBy(_._2, false).take(10).foreach(println)

    //3、统计品类的下单数量:(品类id,下单数量)
    val orderActionRDD: RDD[String] = actionRDD.filter(
      action => {
   
        val datas = action.split("_")
        datas(8) != "null" //下单不为null值
      }
    )

    //orderid=>1,2,3  【(1,1),(2,1),(3,1)】
    //1个order拆分成多个商品
    val ordercountRdd: RDD[(String, Int)] = orderActionRDD.flatMap(
      action => {
   
        val datas = action.split("_")
        val cid: String = datas(8)
        val cids: Array[String] = cid.split(",")
        cids.map(id => 
  • 7
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值