1.实验数据集的下载与保存
2.查看user_log.csv前5条记录
3.删除第一行记录(字段名称)
4.启动HDFS,执行jps命令查看当前运行的进程
5.将本地文件系统中的user_log.csv上传到分布式文件系统HDFS中,查看前10条记录
6.启动Hive,创建数据库dbtaobao
创建外部表
CREATE EXTERNAL TABLE dbtaobao.user_log(user_id INT,item_id INT,cat_id INT,merchant_id INT,brand_id INT,
month STRING,day STRING,action INT,age_range INT,gender INT,province STRING)
COMMENT 'Now create dbtaobao.user_log!' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',
' STORED AS TEXTFILE LOCATION '/dbtaobao/dataset/user_log';
成功将数据导入至数据仓库中,查询10行数据
使用使用dbtaobao数据库
use dbtaobao;
显示数据库中的表
show tables;
查看表的各种属性
show create table user_log;
查看表的简单结构
查看前十个交易日志的商品品牌
前20个交易日志的购买时间和商品种类
利用嵌套语句(简化操作)查询
7.统计分析
(1)用聚合函数count()计算表内有多少条行数据
执行结果为OK下的数字10000。
(2)在函数内部加上distinct,查出uid不重复的数据条数。
执行结果为358
(3)查询不重复的数据有多少条
8.关键字查询分析
(1)查询有多少人购买了商品
若给定时间和给定品牌,求当天购买的此品牌商品的数量
9.用户行为分析
给定购买商品的数量范围(例如超过10次),查询某一天在该网站的购买该数量商品的用户id