统计踩坑日记(三)

统计踩坑日记(三)

细心决定一切

程序员的下班时间是由他对当前手里项目有没有想法决定的,上周对三张表进行统计工作,就被细节问题折磨的欲仙欲死

1.写代码的时候可以随心所欲点,但涉及到指标的生成、统计时就需要严阵以待。每个指标都建议大写,因为不是每个数据库都不区分大小写,比如kudu,他就不支持小写字母来对应指标名,所以一开始就养成指标名大写的习惯总是不会错的。如果不是在这上面耽误了几百分钟,我也不会在意。

2.每条代码都事先写好所有的指标名的集合,可以省下繁复的drop(“column_name”)工作,

def select(df:dataSet[Row]):Datafrme = {
df.select("NAME","SEX")
}

3.写hive和kudu的时候最好关注一下其他前辈是怎么写的,尽量和别人保持一致,不搞特殊化

4.写表的时候有档案表,职能表之分,档案表理论上可以做一切分析,但档案表里存的数据量大,所以加载档案表时间会耗时太多,有这时间不如问领导有没有统计好的表拿来直接用。没办法再想着join档案表。

5.写表的时候hive有insert方法和insert overwrite方法,有些博客对insert overwrite方法介绍的不是很清晰,insert overwrite方法是匹配完全一致的重复数据只保留最后一次写进去的那一个。所以要视情况用。merge方法不熟悉,开发中最好选择熟悉的能够掌握它每一步运行的方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值