hive安装教程见:https://blog.csdn.net/qq_25948717/article/details/81054411
该文章只讲分析数据:
first of all,到搜狗实验室下载用户查询日志:http://www.sogou.com/labs/resource/q.php
数据格式:第一列:搜索时间,第二列:用户ID,第三列:用户在输入框的搜索内容,
第四列:搜索内容出现在搜索页面的第几行,第五列:用户单击的是页面的第几行,第六列:用户单击的超链接
在hive安装节点下输入:hive --service metastore & 启动hive服务(该步骤是必须的),再输入:hive进入hive shell。
创建数据库并使用:
创建SohouQ1表:
create table SogouQ1(ID string,websession string,word string,s_seq int,c_seq int,website string) row format delimited fields terminated by '\t' lines terminated by '\n';
将本地数据导入表中:
上述日志文件只有300kb大小,可以新建表导入更大的日志文件(64MB):
打开Hadoop集群可以看到数据已经到hdfs上了:
分析搜索数据:
HQL语句会被Hive转换位map/reduce程序,然后通过hive自动打包发布到集群中运行。
统计表中的记录总数:
依照关键字搜索:
含有baidu的行有3942行。查询时间为42.273秒。
统计搜索baidu且排名和点击率都是第一的记录数:
打开hadoop的8088也可以看到提交的任务: