阿里巴巴淘宝用户行为数据集,UserBehavior表实战分析

本文介绍了针对阿里巴巴淘宝用户行为数据集UserBehavior的分析过程,涉及Hadoop、Hive、Spark和HBase的环境配置与数据处理。内容包括数据描述、数据准备、数据清洗、用户行为分析以及通过SparkSQL找出有价值的用户等步骤。
摘要由CSDN通过智能技术生成

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境

二、数据描述 UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为(行为包括点击、购买、加 购、喜欢)。数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、 行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下具体字段 说明如下:

三、功能要求 

1.数据准备(10 分)

1 请在 HDFS 中创建目录/data/userbehavior,并将 UserBehavior.csv 文件传到该目录。

2 通过 HDFS 命令查询出文档有多少行数据。

//先创建一个exam文件夹,将数据表放进去,并导入hdfs

[root@gree2 exam]# hdfs dfs -mkdir -p /data/userbehavior/

[root@gree2 exam]# hdfs dfs -put ./UserBehavior.csv /data/userbehavior/


[root@gree2 exam]# hdfs dfs  -cat   /data/userbehavior/UserBehavior.csv  | wc -l

2.数据清洗

1) 请在 Hive 中创建数据库 exam

hive> create database exam;

2) 请在 exam 数据库中创建外部表 userbehavior,并将 HDFS 数据映射到表中

create external table if not exists userbehavior(
    user_id int,
    item_id int,
    category_id int,
    behavior_type string,
    time bigint
)
row format delimited fields terminated by ","
stored as textfile 
  • 4
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值