统计踩坑日记（三）

最新推荐文章于 2024-07-16 23:17:01 发布

KM_锰

最新推荐文章于 2024-07-16 23:17:01 发布

阅读量122

点赞数

文章标签： kafka spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43341418/article/details/108713801

版权

统计踩坑日记（三）

细心决定一切

程序员的下班时间是由他对当前手里项目有没有想法决定的，上周对三张表进行统计工作，就被细节问题折磨的欲仙欲死

1.写代码的时候可以随心所欲点，但涉及到指标的生成、统计时就需要严阵以待。每个指标都建议大写，因为不是每个数据库都不区分大小写，比如kudu，他就不支持小写字母来对应指标名，所以一开始就养成指标名大写的习惯总是不会错的。如果不是在这上面耽误了几百分钟，我也不会在意。

2.每条代码都事先写好所有的指标名的集合，可以省下繁复的drop(“column_name”)工作，

def select(df:dataSet[Row]):Datafrme = {
df.select("NAME","SEX")
}

3.写hive和kudu的时候最好关注一下其他前辈是怎么写的，尽量和别人保持一致，不搞特殊化

4.写表的时候有档案表，职能表之分，档案表理论上可以做一切分析，但档案表里存的数据量大，所以加载档案表时间会耗时太多，有这时间不如问领导有没有统计好的表拿来直接用。没办法再想着join档案表。

5.写表的时候hive有insert方法和insert overwrite方法，有些博客对insert overwrite方法介绍的不是很清晰，insert overwrite方法是匹配完全一致的重复数据只保留最后一次写进去的那一个。所以要视情况用。merge方法不熟悉，开发中最好选择熟悉的能够掌握它每一步运行的方法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计踩坑日记（三）

统计踩坑日记（三）细心决定一切程序员的下班时间是由他对当前手里项目有没有想法决定的，上周对三张表进行统计工作，就被细节问题折磨的欲仙欲死1.写代码的时候可以随心所欲点，但涉及到指标的生成、统计时就需要严阵以待。每个指标都建议大写，因为不是每个数据库都不区分大小写，比如kudu，他就不支持小写字母来对应指标名，所以一开始就养成指标名大写的习惯总是不会错的。如果不是在这上面耽误了几百分钟，我也不会在意。2.每条代码都事先写好所有的指标名的集合，可以省下繁复的drop(“column_name”)工作，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。