hive数据仓库用户行为分析的简单实践

步骤一创建数据库仓库

导入数据
在这里插入图片描述

对small_user.csv数据进行预处理然后得到user_table.txt
在这里插入图片描述

Hdfs下创建bidata/dataset目录
在这里插入图片描述

将本地的hongshixing_table.txt上传到hdfs
在这里插入图片描述

查看数据
在这里插入图片描述

在hive中创建数据库
在这里插入图片描述

创建外部表
在这里插入图片描述

在hive中查看数据
在这里插入图片描述

步骤二进行 hive数据分析

查看表结构
在这里插入图片描述

简单查询分析
1、用聚合函数 count()计算出表内有多少条行数据
在这里插入图片描述

2、在函数内部加上 distinct,查出 uid 不重复的数据有多少条
在这里插入图片描述

3、查询不重复的数据有多少条(为了排除客户刷单情况)
在这里插入图片描述

关键字条件查询分析
(1)查询 2014 年 12 月 10 日到 2014 年 12 月 13 日有多少人浏览了商品
在这里插入图片描述

(2)以月的第 n 天为统计单位,依次显示第 n 天网站卖出去的商品的个数
在这里插入图片描述

键字赋予给定值为条件,对其他数据进行分析
1、取给定时间和给定地点,求当天发出到该地点的货物的数量
select count(*) from bigdata_user where province=‘江西’ and visit_data=‘2014-12-12’ and behaiver_pe=‘4’;
在这里插入图片描述

根据用户行为分析
(1)查询一件商品在某天的购买比例或浏览比例
select count(*) from bigdata_user where visit_data='2014-12-11’and behavior_type=‘4’;
在这里插入图片描述

select count(*) from bigdata_user where visit_data =‘2014-12-11’; (询有多少用户在 2014-12-11 点击了该店)
在这里插入图片描述

根据上面语句得到购买数量和点击数量,两个数相除即可得出当天该商品的购买率。

(2)查询某个用户在某一天点击网站占该天所有点击行为的比例(点击行为包括浏览,加入购物车,收藏,购买)
在这里插入图片描述

select count(*) from bigdata_user where visit_data=‘2014-12-12’;
在这里插入图片描述

(3)给定购买商品的数量范围,查询某一天在该网站的购买该数量商品的用户 id
select uid from bigdata_user where behaiver_type=‘4’ and visit_data=‘2014-12-12’ group by uid having count(behaiver_type=‘4’)>5;(查询某一天在该网站购买商品超过 5 次的用户 id)
在这里插入图片描述

用户实时查询分析
某个地区的用户当天浏览网站的次数
create table scan(province STRING,scan INT) COMMENT ‘This is the search of bigdataday’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ STORED AS TEXTFILE; (创建新的数据表进行存
储)
在这里插入图片描述

insert overwrite table scan select province,count(behaiver_type) from bigdata_user where behaiver_type=‘1’ group by province;
在这里插入图片描述

select * from scan;(显示结果)
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值