一个使用scala+spark分析客户购买历史记录的例子

最新推荐文章于 2022-05-16 10:38:27 发布

weixin_34248705

最新推荐文章于 2022-05-16 10:38:27 发布

阅读量449

点赞数

文章标签： scala 大数据 java

原文链接：https://my.oschina.net/qinhui99/blog/857820

版权

2019独角兽企业重金招聘Python工程师标准>>>

最近看到一个使用scala+spark分析客户购买历史记录的例子。这个例子读取客户购买产品的历史记录文件，然后做4个统计分析：

1、     总的购买次数；

2、     不重复的客户人数；

3、     总的产品销售收入；

4、     最受欢迎的商品是什么。

用scala实现上述的4个统计，代码非常少。主要代码如下：

// 读取CSV 文件，把数据转换成(user, product, price)这样的元组数据

val data = sc.textFile("data/UserPurchaseHistory.csv")

  .map(line => line.split(","))

  .map(purchaseRecord => (purchaseRecord(0), purchaseRecord(1), purchaseRecord(2)))

// 统计购买商品的总数

val numPurchases = data.count

// 统计有多少个用户（不重复的）

val uniqueUsers = data.map { case (user, _, _) => user }.distinct().count

// 统计总收入

val totalRevenue = data.map { case (_, _, price) => price.toDouble }.sum

// 寻找最受欢迎的产品。这里的collect方法仅仅建议测试中使用。

val productsByPopularity = data

  .map { case (_, product, _) => (product, 1) }

  .reduceByKey(_ + _)

  .collect

  .sortBy(-_._2)

val mostPopular = productsByPopularity(0)