spark搜狗日志数据分析实战

最新推荐文章于 2023-05-17 19:40:37 发布

原创

最新推荐文章于 2023-05-17 19:40:37 发布 · 1w 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #数据分析实战

本文介绍了使用Spark分析搜狗搜索引擎日志的过程，包括数据过滤、获取搜索和点击排名第一的数据，以及计算用户查询次数排行榜。通过map、filter、reduceByKey等操作对数据进行处理，并将结果存储。提供了相关代码链接。

一.数据来源

本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。

数据下载地址为：http://www.sogou.com/labs/resource/q.php。可以根据自己需求下载不同版本数据，这里下载的是迷你版本的tar.gz格式的文件。

数据格式为

访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID。：

打开该文件，其内容如下图所示：

2.通过sc读取textFile

val sougou = sc.textFile("G:\\SogouQ.txt")

然后通过count来看一下一共有多少条数据

sougou.count()

3.过滤有效数据

&n

最低0.47元/天解锁文章

4 条评论

菜菜的大数据开发之路 2021.12.13
大佬的文章让我受益匪浅,感谢博主！

cklmnhzve 2017.11.21
您好，您的SogouQ的资源是2006年的吗，还是2008年的，官网链接上给的资源没有访问时间属性。您下载的数据有访问时间吗？有的话能给一个链接吗，搜狗实验室官网下载下来的没有访问时间属性。谢谢
- 一羽霓裳等君还回复RiverCode 2024.04.15
  您好，数据查询日志无法再下载了，您能发我一份吗？我邮箱是2698512450@qq.com;有偿也行
- RiverCode回复cklmnhzve 2018.03.07
  [reply]baidu_22811589[/reply] 不好意思啊，现在回复，我用的是2008的，搜狗数据链接为： http://www.sogou.com/labs/resource/q.php 。文中也提到了

评论 4

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。