搜索日志
柱子89
在读学生
展开
-
日志分析 mapreduce sogou
数据来源:SogouQ统计信息:对每个查询中的查询词的数目进行统计代码如下:package Sogou;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.*;import org.apache.hadoop.conf.*;import o转载 2017-03-24 11:30:59 · 834 阅读 · 0 评论 -
用户查询日志(SogouQ)之查询词WordCount
输入数据来源, 用户查询日志(SogouQ), 感谢搜狗实验室! 此次选择的是精简版(一天数据, 63MB, 解压后145MB), PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8PS2: 日志格式和格式说明: // 搜狗实验室的官方说明访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL, 这个格转载 2017-03-24 13:12:39 · 2212 阅读 · 5 评论