1.算法流程
2.ODPS计算框架
2.1 ODPS基础概念
建表规范:
红色常用的,
分区裁剪:
误删回复
2.2 ODPS SQL
不建议动态分区
UDF自定义函数:
在D2里开发使用。
3. 数据仓库概念&研发平台
数据的话主要使用:
DWD DWS层
3.2研发平台:
4.ODPS性能优化!
4.1数据倾斜处理
分区裁剪:
优先使用系统函数,UDF自己定义的性能会差点:正则表达式少用
点击detall:
5. ODPS SQL优化详细版
5.1.优化注意细节【数据倾斜等】
dumps在磁盘操作,数量越少越好。
dumps:过多,增加内存2G,3G。
目标是dumps减到0.
出现数据倾斜后再设置,对大量的数据进行再次分组。
设计数据很小的,直接去掉对应join
5.2 案例分析
logview
https://adc.alipay.com/articleDetail.htm?id=3959https://adc.alipay.com/articleDetail.htm?id=3959
没有加分区过滤条件。
先去重。