排序4个by


1.order by

全局排序,只有一个Reducer

2.sort by

分区内有序

3.distribute by

类似MR中partition,进行分区结合sort by使用

4.cluster by

当distribute by和sort by字段相同时,可以使用cluster by方式;但排序只能是升序排序,不能指定排序规则为asc或desc


在生产环境中order by用的比较少,容易导致OOM(内存溢出)sort by + distribute by用的多。

5.总结

(1) OOM(内存溢出)

OOM,全称“Out Of Memory”,翻译成中文就是“内存用完了”,来源于java.lang.OutOfMemoryError,当JVM因为没有足够的内存来为对象分配空间并且垃圾回收器也已经没有空间可回收时,就会抛出这个error
为什么会没有内存了呢?原因不外乎有两点:

  1. 分配的少了:比如虚拟机本身可使用的内存(一般通过启动时的VM参数指定)太少。
  2. 应用用的太多,并且用完没释放,浪费了。此时就会造成内存泄露或者内存溢出。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值