hive实战分析网页搜索数据

32 篇文章 1 订阅
6 篇文章 0 订阅

hive安装教程见:https://blog.csdn.net/qq_25948717/article/details/81054411

该文章只讲分析数据:

first of all,到搜狗实验室下载用户查询日志:http://www.sogou.com/labs/resource/q.php

数据格式:第一列:搜索时间,第二列:用户ID,第三列:用户在输入框的搜索内容,

                  第四列:搜索内容出现在搜索页面的第几行,第五列:用户单击的是页面的第几行,第六列:用户单击的超链接

在hive安装节点下输入:hive --service metastore & 启动hive服务(该步骤是必须的),再输入:hive进入hive shell。

创建数据库并使用:

创建SohouQ1表:

create table SogouQ1(ID string,websession string,word string,s_seq int,c_seq int,website string) row format delimited fields terminated by '\t' lines terminated by '\n';

将本地数据导入表中:

上述日志文件只有300kb大小,可以新建表导入更大的日志文件(64MB):

打开Hadoop集群可以看到数据已经到hdfs上了:

分析搜索数据:

HQL语句会被Hive转换位map/reduce程序,然后通过hive自动打包发布到集群中运行。

统计表中的记录总数:

依照关键字搜索:

含有baidu的行有3942行。查询时间为42.273秒。

统计搜索baidu且排名和点击率都是第一的记录数:

打开hadoop的8088也可以看到提交的任务:

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值