常见算子使用_案例|使用 spark Pivot 处理复杂的数据统计需求

最新推荐文章于 2024-04-24 20:12:39 发布

18108166336

最新推荐文章于 2024-04-24 20:12:39 发布

阅读量534

点赞数

文章标签：常见算子使用

本文链接：https://blog.csdn.net/weixin_31951319/article/details/112735762

版权

Pivot 算子是 spark 1.6 版本开始引入的，在 spark2.4版本中功能做了增强，还是比较强大的，做过数据清洗ETL工作的都知道，行列转换是一个常见的数据整理需求。spark 中的Pivot 可以根据枢轴点(Pivot Point) 把多行的值归并到一行数据的不同列，这个估计不太好理解，我们下面使用例子说明，看看pivot 这个算子在处理复杂数据时候的威力。

使用Pivot 来统计天气走势

下面是西雅图的天气数据表，每行代表一天的天气最高值：

Date	Temp (°F)
07-22-2018	86
07-23-2018	90
07-24-2018	91
07-25-2018	92
07-26-2018	92
07-27-2018	88
07-28-2018	85
07-29-2018	94
07-30-2018	89

如果我们想看下最近几年的天气走势，如果这样一天一行数据，是很难看出趋势来的，最直观的方式是按照年来分行，然后每一列代表一个月的平均天气，这样一行数据，就可以看到这一年12个月的一个天气走势，下面我们使用 pivot 来构造这样一个查询结果：

结果如下图：

最低0.47元/天解锁文章

18108166336

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见算子使用_案例|使用 spark Pivot 处理复杂的数据统计需求

Pivot 算子是 spark 1.6 版本开始引入的，在 spark2.4版本中功能做了增强，还是比较强大的，做过数据清洗ETL工作的都知道，行列转换是一个常见的数据整理需求。spark 中的Pivot 可以根据枢轴点(Pivot Point) 把多行的值归并到一行数据的不同列，这个估计不太好理解，我们下面使用例子说明，看看pivot 这个算子在处理复杂数据时候的威力。使用Pivot ...
复制链接

扫一扫

常见算子使用_案例|使用 spark Pivot 处理复杂的数据统计需求

使用Pivot 来统计天气走势

“相关推荐”对你有帮助么？