spark数据开发业务流程总结

(一)接到新业务流程:
(a)应用设计文档
(b)计算逻辑文档
根据这两个文档,整理业务流程

(二)接下来根据业务中伪代码,整理出hive-SQL
(a)考虑命名规范
(b)考虑存储格式

(三)整理好SQL之后开始代码开发
(a)建表建字段(类型如何选择)
(b)建模块写代码

(四)最后核对数据(重点)

(五)问题汇总:

(1)先建表 后执行代码
(2) 建表时 先执行use db
(3)从小宽表中生成大宽表 select*包括分区字段 
(4)使用join还是left join(梳理业务)
(5)哪个left join哪个(梳理业务)
(6)调试不要写repartition 100G数据多运行20min+
(7)写完SQL要核对一遍业务逻辑(重名字段易混淆)
(8)group by date需要先格式化日期
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值