【大数据处理技术】「#2」Hive数据分析

操作Hive

  • 启动Hive
  • 在“hive>”命令提示符状态下执行下面命令:
hive> use dbtaobao; # 使用dbtaobao数据库
hive> show tables; # 显示数据库中所有表。
hive> show create table user_log; # 查看user_log表的各种属性;

在这里插入图片描述

  • 执行下面命令查看表的简单结构:
hive> select brand_id from user_log limit 10; # 查看日志前10个交易日志的商品品牌

在这里插入图片描述


简单查询分析

测试简单指令

  • 测试一下简单的指令
hive> select brand_id from user_log limit 10; # 查看日志前10个交易日志的商品品牌
  • 查询前20个交易日志中购买商品时的时间和商品的种类
hive> select month,day,cat_id from user_log limit 20;
  • 查询可以利用嵌套语句,如果列名太复杂可以设置该列的别名,以简化我们操作的难度
hive> select ul.at, ul.ci  from (select action as at, cat_id as ci from user_log) as ul limit 20;

在这里插入图片描述


查询条数统计分析

  • 用聚合函数count()计算出表内有多少条行数据
hive> select count(*) from user_log; 
# 用聚合函数count()计算出表内有多少条行数据

在这里插入图片描述

  • 在函数内部加上distinct,查出uid不重复的数据有多少条
hive> select count(distinct user_id) from user_log; 
# 在函数内部加上distinct,查出user_id不重复的数据有多少条

在这里插入图片描述

  • 查询不重复的数据有多少条(为了排除客户刷单情况) **
hive> select count(*) from (select user_id,item_id,cat_id,merchant_id,brand_id,month,day,action from user_log group by user_id,item_id,cat_id,merchant_id,brand_id,month,day,action having count(*)=1)a;

在这里插入图片描述


关键字条件查询分析

以关键字的存在区间为条件的查询

  • 查询双11那天有多少人购买了商品
hive> select count(distinct user_id) from user_log where action='2';

在这里插入图片描述

  • 关键字赋予给定值为条件,对其他数据进行分析(取给定时间和给定品牌,求当天购买的此品牌商品的数量)
hive> select count(*) from user_log where action='2' and brand_id=2661;

在这里插入图片描述


根据用户行为分析

  • 查询一件商品在某天的购买比例或浏览比例、
# 查询有多少用户在双11购买了商品
hive> select count(distinct user_id) from user_log where action='2'; 
# 查询有多少用户在双11点击了该店
hive> select count(distinct user_id) from user_log; 

在这里插入图片描述

  • 查询双11那天,男女买家购买商品的比例
hive> select count(*) from user_log where gender=0; # 查询双11那天女性购买商品的数量
hive> select count(*) from user_log where gender=1; # 查询双11那天男性购买商品的数量

在这里插入图片描述

  • 给定购买商品的数量范围,查询某一天在该网站的购买该数量商品的用户id
# 查询某一天在该网站购买商品超过5次的用户id
hive> select user_id from user_log where action='2' group by user_id having count(action='2')>5; 

在这里插入图片描述


用户实时查询分析

  • 不同的品牌的浏览次数
# 创建新的数据表进行存储
hive> create table scan(brand_id INT,scan INT) COMMENT 'This is the search of bigdatataobao' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;
# 导入数据
hive> insert overwrite table scan select brand_id,count(action) from user_log where action='2' group by brand_id; 
# 显示结果
hive> select * from scan; 

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值