大数据常问问题

一:1G的数据  你当前只能用 400M内存,怎么进行全排序?

答案:大概思路是这样的:
首先是通过hash的方式,把一个比较大的数据切分成多分小文件。
切分过后,开始做分区的排序,当然,分区的排序是很好做的,问题是如何做全局的排序;
这里面就涉及到一个算法:叫做【归并排序】,我建议大家找时间看一下堆排序和归并排序
上一步我们把大文件切分成多分小文件了,然后又对每一个小文件进行排序,那么现在就要用到归并算法,将已经排序好的这些文件来一个归并排序;最终合并成一个大文件
归并排序大概的算法:
去上网搜索一下,一大堆。把这个搞明白了,以后类似的问题就比较好解决了


http://www.cnblogs.com/jingmoxukong/p/4308823.html 

  这个是比较好的归并排序帖子 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值