阿里巴巴淘宝用户行为数据集，UserBehavior表实战分析

最新推荐文章于 2025-03-08 21:33:31 发布

大数据与云计算开发者Cd

最新推荐文章于 2025-03-08 21:33:31 发布

阅读量6.9k

点赞数 4

文章标签： hbase hive spark 大数据

本文链接：https://blog.csdn.net/qq_56795768/article/details/122323749

版权

本文介绍了针对阿里巴巴淘宝用户行为数据集UserBehavior的分析过程，涉及Hadoop、Hive、Spark和HBase的环境配置与数据处理。内容包括数据描述、数据准备、数据清洗、用户行为分析以及通过SparkSQL找出有价值的用户等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境

二、数据描述 UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户 ID、商品 ID、商品类目 ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下具体字段说明如下：

三、功能要求

1.数据准备（10 分）

1 请在 HDFS 中创建目录/data/userbehavior，并将 UserBehavior.csv 文件传到该目录。

2 通过 HDFS 命令查询出文档有多少行数据。

//先创建一个exam文件夹，将数据表放进去，并导入hdfs

[root@gree2 exam]# hdfs dfs -mkdir -p /data/userbehavior/

[root@gree2 exam]# hdfs dfs -put ./UserBehavior.csv /data/userbehavior/


[root@gree2 exam]# hdfs dfs  -cat   /data/userbehavior/UserBehavior.csv  | wc -l

2.数据清洗

1) 请在 Hive 中创建数据库 exam

hive> create database exam;

2) 请在 exam 数据库中创建外部表 userbehavior，并将 HDFS 数据映射到表中

create external table if not exists userbehavior(
    user_id int,
    item_id int,
    category_id int,
    behavior_type string,
    time bigint
)
row format delimited fields terminated by ","
stored as textfile

最低0.47元/天解锁文章