自学大数据:Hive基于搜狗搜索的用户日志行为分析

前言

”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语。很多朋友就想问,我想做大数据,但是没有这个条件,没有这个数据量,没有那么多业务场景,没有那多集群可以吗?其实,我觉得是可以的,大数据只是一个华丽的词语,实际的背后也是一些开源框架的支撑,也是通过技术来实现的,所以只要掌握这一套理论体系,开源框架,技术手段,底层实现,就ok。

所以我想写一系列的博客,来让这个看起揭开这个高大上技术的面纱,展露它的本质,让更多的人领略大数据的魅力。

至于怎么搭建hadoop集群,安装生态圈中的hbase、hive、pig、mahout、spark、flume等等,就不在我想讨论的范围内,有太多的的文章、博客都详实的记录了。

这篇我主要想分享,基于搜索引擎的用户日志行为的一些分析,时间比较仓促,如有遗漏或错误欢迎留言,互动,大家进步。


数据来源

打造最权威的中文信息处理数据提供和评测平台 。数据来源,搜狗实验室


理论知识

          做技术分析之前必须需要相关的理论知识作为研究支撑,所以建议先掌握相应的理论知识。主要分两部分,一个是统计分析相关的,一些关于得出数据总量分量的关系,百分比,进而绘制出趋势走向,历史图标,各种报表等,提供BI的功能。另外一部分是数据挖掘/文本挖掘,挖掘用户查询词的语义,查到相邻词语,进而进行相关搜索推荐等,挖掘出用户兴趣,人群画像等。

          统计分析相关

           搜索引擎用户行为分析

  中文搜索引擎用户日志分析

          数据挖掘/文本挖掘相关 
  大规模中文搜索引擎的用户日志分析
  基于用户日志的查询推荐系统


准备工作

1、下载搜狗搜索的用户日志 ,有完整版(2GB)和迷你版(87KB),可以先下载迷你版查看数据格式,最终使用完整版做数据分析

        2、建hive表: create table querylog (time string,userid string,keyword string,pagerank int,clickorder int,url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';


分析过程

       
        1、用户搜索排行榜 >100
        select * from ( select userid,count(*) as c from querylog group by userid having c>1 ) a order by c desc limit 100 ;

        2、url搜索访问排行榜 > 100
       select * from ( select url,count(*) as c from querylog group by url having c>1 ) a order by c desc limit 100 ;

       总共的url的访问次数是  43545444

       可以得到以下结果
           http://www.baidu.com/ 660791    搜索引擎    1.517%
http://www.4399.com/ 231722     小游戏网站  0.532%
http://www.youku.com/ 133650   视频网站   0.306%
http://www.hao123.com/ 129220  导航网站  
http://qzone.qq.com/ 114878    qq空间 sns网站
http://www.7k7k.com/ 98103    小游戏网站
http://cf.qq.com/ 85555    穿越火线网站
      
       发现用户通过搜狗搜索获取百度的地址的数量比较多,其次是游戏类,视频。可以发现有很高的比例的人,其实不是真正的使用搜狗搜索直接搜索数据,而是通过搜狗获得百度搜索,搜索数据。
          
        思考扩展:可以通过对每个网站的分类,比如可以划为视频、搜索、导航、SNS、游戏等网站类型,获得用户最关心的网站类型,什么类型网站最热门,在同一类型网站中热度排行榜,哪个网站最热门,排行榜是怎样的。

       3、用户搜索时,点击url在页面排行pagerank的统计
       select pagerank,count(pagerank) as c
  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值