基于Spark（Scala）淘宝用户行为数据分析

无忧ocean

已于 2023-11-21 23:06:55 修改

阅读量410

点赞数

文章标签： spark scala 大数据

于 2023-11-21 23:06:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_71546963/article/details/134501868

版权

本文详细介绍了如何使用Spark和Scala从HDFS加载数据，将RDD转换为DataFrame，进而筛选购买数量前十的商品类目，统计销售排行前10的商品类目及其中商品的销售量。通过创建实体类和使用窗口函数，最终将结果转换为JSON并保存到本地。

摘要由CSDN通过智能技术生成

目录

数据集说明

从分布式文件系统HDFS中加载数据、将RDD转换为DataFrame。

筛选出用户购买数量前十的商品类目

获取排行前10的商品类目所包含的每个商品销售量

统计销售排行前10的商品类目所包含的商品中销售量排行前十的商品

创建一个统计结果的实体类CateAndItemClass

把统计结果的每一行分别存入数组内

编写一个把数组转换为json数据，并保存到本地的方法

数据集说明

名称	说明
用户ID	整数类型，序列化后的用户ID
商品ID	整数类型，序列化后的商品ID
商品类目ID	整数类型，序列化后的商品所属类目ID
行为类型	字符串，枚举类型，包括('pv', 'buy', 'cart', 'fav')
行为发生的时间	行为发生的时间戳

行为类型	说明
pv	商品详情页pv，等价于点击
buy	商品购买
cart	将商品加入购物车
fav	收藏商品

代码解析

从分布式文件系统HDFS中加载数据、将RDD转换为DataFrame。

从RDD转换得到DataFrame有两种方式，一是利用反射机制推断RDD模式，二是使用编程方式定义RDD模式。这里使用第一种方式将RDD转换为DataFrame，需要注意的是应提前定义case class,这样才能被spark隐式转换为DataFrame。

case class Info(userId: Integer, itemId: Integer, cateId: Integer ,action: String, time:String)

    al conf = new SparkConf().setAppName("cate").setMaster("local")
    val sc = new

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

无忧ocean CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

159万+: 周排名

61万+: 总排名

5368: 访问

: 等级

41: 积分

8: 粉丝

1: 获赞

2: 评论

8: 收藏

私信

关注

热门文章

最新评论

JAVA模拟生成新能源汽车数据——随机生成车架号
CSDN-Ada助手: 非常棒的博文！你的程序能够很好地模拟生成新能源车辆数据，这对于研究和开发新能源汽车技术来说非常有用。你已经实现了要求中的功能，并将数据写入了HDFS中，这是一个很好的选择。除了你在标题和摘要中提到的技能和知识外，我想分享一些扩展的相关内容。首先，你可以考虑使用随机数生成器来模拟车辆数据中的一些字段，比如行驶总里程、车速和剩余电量SOC。此外，你还可以使用定时任务来设置程序在每天凌晨3点自动运行并生成新的数据。这样，你就不需要手动操作了。再次感谢你的分享，希望你能继续创作并分享更多关于JAVA编程和数据模拟的内容。祝你好运！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
爬取NBA球员数据画出球员的雷达图
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。