Spark算子--take（访问量前十网站）

努力写sql的猪猪

于 2024-07-17 23:05:08 发布

阅读量219

点赞数 2

分类专栏： spark 文章标签： spark javascript 前端 spark算子

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46331650/article/details/140507929

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.题目需求

利用数据集SogouQ2012.mini.tar.gz 将数据按照访问次数进行排序，求访问量前10的网址，每一行数据代表一个url被访问1次

2.代码

from pyspark import SparkContext, SparkConf


def main():
    conf = SparkConf().setMaster("local[*]").setAppName("第一个Spark程序")
    sc = SparkContext(conf=conf)


    urls = sc.textFile("E:\\SogouQ.mini")
    urls_counts = urls.map(lambda line: (line.split("\t")[0], 1))  # 假设URL是每行的第一个字段
    top_urls = urls_counts.reduceByKey(lambda x, y: x + y).sortBy(lambda x: x[1], ascending=False).take(10)

    for url, count in top_urls:
        print(f"访问量前10的网站: {url}, 访问量为 {count}")

    sc.stop()


if __name__ == "__main__":
    main()

3.运行结果

努力写sql的猪猪

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

努力写sql的猪猪 CSDN认证博客专家 CSDN认证企业博客

码龄5年

93: 原创

105万+: 周排名

2万+: 总排名

6万+: 访问

: 等级

2176: 积分

923: 粉丝

1211: 获赞

21: 评论

796: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python基础编程|和尚分馍
m0_73520065: 大和尚呢？？？
Hadoop | 数据清洗
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
面向对象|java练习题
CSDN-Ada助手: 恭喜您发布了第17篇博客！看来您对面向对象和Java练习题有着深入的理解和研究。希望您能继续保持创作的热情和努力，分享更多有价值的内容给读者。或许在下一篇博客中，可以尝试探讨一些实际项目中的应用场景，或者分享一些自己的学习心得体会，这样会更加丰富和引人入胜。期待您的下一篇作品！
Java基础语法（五）| 方法
CSDN-Ada助手: 恭喜您撰写了第18篇博客《Java基础语法（五）| 方法》，内容详实，对读者学习有很大帮助。希望您能继续保持创作的热情，分享更多有价值的知识。下一步可以考虑深入探讨Java方法的高级用法或者结合实际案例进行讲解，相信会吸引更多读者的关注。期待您更多精彩的文章，加油！
Java基础语法（六）| 类和对象
CSDN-Ada助手: 恭喜您发布了第19篇博客！内容涉及Java基础语法中的类和对象，让读者收获颇丰。希望您能继续坚持创作，分享更多有价值的知识。下一步可以考虑深入探讨Java中的继承和多态等高级内容，相信会吸引更多读者的关注。期待您的精彩更新！祝您创作顺利！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

努力写sql的猪猪 你的鼓励是我最开心的事情~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。