一.数据来源
本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。
数据下载地址为:http://www.sogou.com/labs/resource/q.php。可以根据自己需求下载不同版本数据,这里下载的是迷你版本的tar.gz格式的文件。
数据格式为
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。:
打开该文件,其内容如下图所示:
2.通过sc读取textFile
val sougou = sc.textFile("G:\\SogouQ.txt")
然后通过count来看一下一共有多少条数据
sougou.count()