hive演示实验--sogou日志数据

3 篇文章 0 订阅

1:日志处理演示

数据来源:http://download.labs.sogou.com/dl/q.html 完整版(2GB):gz格式

//SogouQ1.txt、SogouQ2.txt、SogouQ3.txt分别是用head -n 或者tail -n 从SogouQ数据日志文件中截取

查看日志文件格式:

[hadoop@hadoop2 hadoop220]$ bin/hdfs dfs -tail /dataguru/data/SogouQ1/SogouQ1.txt

//访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL


A:创建表

hive> CREATE EXTERNAL TABLE SOGOUQ1(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE LOCATION '/dataguru/data/SogouQ1';


B :查询有多少行数据
Select count(*) from SOGOUQ1;


查询结果



C:显示前10行数据


查询结果



D:搜索结果排名第1,但是点击次序排在第2的数据有多少?


查询结果




E:搜索用户点击的URL含baidu的数据有多少?


查询结果



F:session查询次数排行榜


查询结果



G:创建内部表并加载数据,原数据被移动到默认路径


查询结果





现在数据库中没有数据,所以查询没有结果。要先加载数据。



加载完毕,在浏览器中可以查看



//查询有多少行数据
hive> Select count(*) from SOGOUQ2;



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值