1:日志处理演示
数据来源:http://download.labs.sogou.com/dl/q.html 完整版(2GB):gz格式
//SogouQ1.txt、SogouQ2.txt、SogouQ3.txt分别是用head -n 或者tail -n 从SogouQ数据日志文件中截取
查看日志文件格式:
[hadoop@hadoop2 hadoop220]$ bin/hdfs dfs -tail /dataguru/data/SogouQ1/SogouQ1.txt
//访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
A:创建表
hive> CREATE EXTERNAL TABLE SOGOUQ1(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE LOCATION '/dataguru/data/SogouQ1';
B :查询有多少行数据
Select count(*) from SOGOUQ1;
查询结果
C:显示前10行数据
查询结果
D:搜索结果排名第1,但是点击次序排在第2的数据有多少?
查询结果
E:搜索用户点击的URL含baidu的数据有多少?
查询结果
F:session查询次数排行榜
查询结果
G:创建内部表并加载数据,原数据被移动到默认路径
查询结果
现在数据库中没有数据,所以查询没有结果。要先加载数据。
加载完毕,在浏览器中可以查看
//查询有多少行数据
hive> Select count(*) from SOGOUQ2;
hive> Select count(*) from SOGOUQ2;