001数据算法--二次排序

最新推荐文章于 2020-11-29 16:49:13 发布

一路狂飚飚

最新推荐文章于 2020-11-29 16:49:13 发布

阅读量207

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34555905/article/details/102600024

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

二次排序

各个列分别为：
年，月，日，当天温度
2012,01,01,5
2012,01,02,15
2012,01,03,25
2012,01,04,18
2012,01,05,10
2012,02,01,15
2012,02,02,16
2012,02,03,22
2012,02,04,11
2012,02,05,16
2012,03,01,25
2012,03,02,17
2012,03,03,24
2012,03,04,13
2012,03,05,17
需求：
输出每个’年-月’(year-month)的温度，而且值按升序排序。
输出结果为：
第一列：year-month
第二列：已排序的温度。

hadoop M/R 实现二次排序

MapReduce范式：
map(keya,valuea) -> list(kb,vb）
reduce(kb,list(vb)) -->list(kc,vc)

使用MR框架对规约器值排序：
使用键值转换设计模式：
构造一个组合中间键（k,valuea）,其中valuea是次键（secondary key）。在这里，k称为自然键(natural key）。要在规约器键中注入一个值（即 valuea），只需要创建一个组合键，在本例子中valuea 就是温度数据 (temperature）。

spark 实现二次排序

一路狂飚飚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
001数据算法--二次排序

啊啊啊
复制链接

扫一扫

专栏目录

一路狂飚飚 CSDN认证博客专家 CSDN认证企业博客

码龄8年

124: 原创

23万+: 周排名

2万+: 总排名

15万+: 访问

: 等级

1899: 积分

87: 粉丝

114: 获赞

7: 评论

448: 收藏

私信

关注

热门文章

分类专栏

最新评论

Oracle001-给表以及表字段添加中文名注释
weixin_46166053: 是不是倒过来了，表和字段注释的
MPP数据库初识
Adataer: 第二代是MPP分析型数据库，包括Greenplum和Teradata等，仍然保持跟传统事务型数据库一样优秀的SQL兼容性，虽然MPP数据库的存储和计算没有完全分离，但凭这样的架构已经能扩展至上百个节点。MPP架构跟传统事务型数据库一样，对云的支持并不友好。第三代是SQL-on-Hadoop架构，代表产品包括SparkSQL和Cloudera，集群规模可以达到上千个节点。并且对云有一定的支持。但是跟传统的MPP相比，在性能和SQL兼容性上都不尽如人意。推荐一个数据库偶数科技的 OushuDB，它有很强的性能优势，领先的 SIMD 性能优化技术，相比MPP和SQL-on-Hadoop快一个数量级。全新设计的执行器让性能提升5~10倍，显著降低批处理和即席查询所需的时间。
linux 中 ls 或cat 查询获取最后一行数据的方法
bcaso: 有些复杂了，`ls | tail -n 1` 就可以只取最后一行
postgresql笔记010-值表达式
ctotalk: 挺好
postgre函数011—输出 JSON 结果操作和方法
ctotalk: 谢谢分享，不错

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。