Hadoop--Hive

1.实验数据集的下载与保存

2.查看user_log.csv前5条记录

3.删除第一行记录(字段名称)

4.启动HDFS,执行jps命令查看当前运行的进程

5.将本地文件系统中的user_log.csv上传到分布式文件系统HDFS中,查看前10条记录

6.启动Hive,创建数据库dbtaobao

创建外部表

CREATE EXTERNAL TABLE dbtaobao.user_log(user_id INT,item_id INT,cat_id INT,merchant_id INT,brand_id INT,
month STRING,day STRING,action INT,age_range INT,gender INT,province STRING)
 COMMENT 'Now create dbtaobao.user_log!' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',
' STORED AS TEXTFILE LOCATION '/dbtaobao/dataset/user_log';
成功将数据导入至数据仓库中,查询10行数据

使用使用dbtaobao数据库

use dbtaobao;

显示数据库中的表

show tables; 

查看表的各种属性

show create table user_log; 

查看表的简单结构

查看前十个交易日志的商品品牌

前20个交易日志的购买时间和商品种类

利用嵌套语句(简化操作)查询

7.统计分析

(1)用聚合函数count()计算表内有多少条行数据

执行结果为OK下的数字10000。

(2)在函数内部加上distinct,查出uid不重复的数据条数。

执行结果为358

(3)查询不重复的数据有多少条

8.关键字查询分析

(1)查询有多少人购买了商品

若给定时间和给定品牌,求当天购买的此品牌商品的数量

9.用户行为分析

给定购买商品的数量范围(例如超过10次),查询某一天在该网站的购买该数量商品的用户id

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值