Spark 入门之十一：Spark数据处理常用的那几招

最新推荐文章于 2024-08-21 13:30:00 发布

铁猴

最新推荐文章于 2024-08-21 13:30:00 发布

阅读量1.1w

点赞数

分类专栏： Spark Spark入门简单学文章标签： Spark WordCount TopK 中位数数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eric_sunah/article/details/51822876

版权

本文介绍了Spark数据处理的四个实用技巧：wordcount用于统计频率，TopK用于查找最常见的元素，中位数计算方法适用于海量数据，以及如何处理数据倾斜问题。通过实例代码详细解释了每个操作的逻辑和应用场景。

摘要由CSDN通过智能技术生成

最近看完了《Spark 大数据处理》一数，收益非浅，又结合平时工作中用到的一些开发实践，用Python实现了Spark编程过程中经常用到且比较基础的编程模型，拿出来与大家分享，如有不足还请补充。

《Spark 大数据处理》一书中也有相关的例子，但是是用Scala实现的，个人觉得还是Python API的语法还是更加简洁清晰，所以选择了用Python来实现，语言都是浮云，主要还是看思路，由于篇幅限制，只列出部分核心代码。

第一招：wordcount
- 介绍：对于大数据编程领域的经典例子，是肯定要第一招学会的，其实wordcount并不只是个wordcount,它还有很用应用的场景，例如统计过去一段时间网站中各个商品的浏览量，最近一段时间相同查询的数量等
- 代码逻辑
  实现该功能主要包括以下四步
  - 将文件内容转换成RDD
  - 对文件的行按照特定字符分割
  - 将每个提取到的数据转换成(element,1)的格式
  - 把所有的(element,1)的数据使用reduceBy进行element的叠加统计
- 实现代码
  完整功能的核心代码加上打印只需要两行
```
data_file=sc.textFile("hdfs://10.5.24.137:9990/temp/2016052512/tf_00000000")
```

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。