大数据排序

最新推荐文章于 2023-10-22 22:24:10 发布

不疯魔的菜鸡

最新推荐文章于 2023-10-22 22:24:10 发布

阅读量838

点赞数

文章标签：大数据排序分治思想大数据研发工程师面试

大数据排序

大数据开发工程师的一道经典面试题

首先区分内部排序和外部排序

内部排序：内部排序是指待排序序列可以全部装入内存的排序过程，适用于规模较小的元素序列。
外部排序：外部排序是指大文件的排序，即待排序的记录存储在外存储器上，待排序的文件无法一次装入内存，需要在内存和外部存储器之间进行多次数据交换，才能达到排序整个文件的目的。

其次要注意待排序数据的特点

如果待排序数据具有某些特点，往往能够有更加有效的方法解决。
同时，这种思想也更加贴近大数据应用的思维方式。

总体思想：分而治之

对于大数据问题，分而治之的思想十分普遍。同时分布式计算、并行计算等也都类似。
包括Hadoop采用的map-reduce模型，分而治之的思想都贯穿其中。

1. 如果是以时间为基准排序的话

以时间为基准排序，那么可以把一天的数据存成一个文件，或者把固定天数的数据存成一个文件，这样各个文件之间就是有序的了。

首先，根据数据的时间跨度和数据量大小，选择合适的天数为一个区间，为每个区间新建一个文件。
将全部数据遍历一遍，按时间将其存入对应的文件中。
对每个文件中的数据分别进行排序。
将全部文件按顺序合并到一起，即是排序好的数据序列了。

2. 如果是byte型，或者是其它取值有限且较少的数据

对于这种byte型，或者是其它取值有限且较少的数据，更专业更具体地说，应该是输入的线性表的元素属于有限偏序集则可采用计数排序的方法，不过这种方法要求过于苛刻，适用情况少。
一个典型例子就是成绩的统计，特别是那种全是整数的情况。
假设数据共有n种取值：

首先新建一个长度为n的数组。
扫描全部n种取值，对于每种取值，找到集合中等于该值的元素的个数，存入数组。
再扫描整个输入的线性表，对于每个元素，都可以得到他在最终输出的线性表中的位置。

通过字典树的方法，还需要再看

不疯魔的菜鸡

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据排序

大数据排序大数据开发工程师的一道经典面试题首先区分内部排序和外部排序内部排序：内部排序是指待排序序列可以全部装入内存的排序过程，适用于规模较小的元素序列。外部排序：外部排序是指大文件的排序，即待排序的记录存储在外存储器上，待排序的文件无法一次装入内存，需要在内存和外部存储器之间进行多次数据交换，才能达到排序整个文件的目的。其次要注意待排序数据的特点如果待排序数...
复制链接

扫一扫

不疯魔的菜鸡 CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

55万+: 周排名

136万+: 总排名

2万+: 访问

: 等级

226: 积分

9: 粉丝

10: 获赞

12: 评论

77: 收藏

私信

关注

分类专栏

最新评论

论文笔记：DnCNNs（Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising）
double true: 没有
论文笔记：DnCNNs（Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising）
MaoLiu_i: 您好，请问问题解决了吗，我刚学习这个算法，和你一样的疑问，找了很多文章对这些细节都没有提及，还是一头雾水
论文笔记：DnCNNs（Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising）
weixin_45047360: 您好，请问有源码吗
华为 - 大数据研发工程师 - 实习 - 面试 - 准备
最早的早安227: 好
论文笔记：DnCNNs（Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising）
double true: 想问一下，网络优化采用的是使得网络输出的残差图片跟真实的残差图片之间的距离最小，那真实的残差图片是已知的是吗，还有一个问题就是，训练数据是加了不同程度的噪声，是不是每一个加噪图像都对应一个残差图像呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。