数据仓库
胡大宝_fighting
这个作者很懒,什么都没留下…
展开
-
计算客服操作的净处理时长
1.去掉连续类型计算时长 操作记录只剩下两种类型,客户操作U,客服操作T。计算UT之间的时间差。 例如U1->U2->T1->T2,只算U1和T1之间的时间差。 例如T1->T2->U1-U2-T3,只算U1和T3之间的时间差。 例如T1->U1-T2->U2->T3,计算U1和T2,U2和T3的时间差。 如果最后一条记录不是客服操作,也不是8和52,那么处理时长还需要加上(当前时间减去最后一条记录的时间点。 tmp_jsc as ( s.原创 2020-12-05 10:46:34 · 319 阅读 · 0 评论 -
hive、spark优化
hive、spark优化 看了文章https://blog.csdn.net/qq_26442553/article/details/99438121,总结了的。感谢@涤生大大的精彩分享 小文件过多 小文件过多引起maptask太多,初始化时间远大于逻辑处理时间。此时我们可以合并小文件。 hive,调节参数: set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --hive0.5开始就是默认值,执行ma转载 2020-12-04 01:46:41 · 230 阅读 · 0 评论 -
数据质量
上线前测试 上线前充分测试,以保证在交付上线的时候,数据的准确性。主要可以从以下几个点去测试: 数据测试整体从一致性和精确性两个点去做测试。 条数核对。与底层逻辑的数据量进行核对,数据条数保持一致 整体调查。查出每一个字段,看是否有字段全空,全0等单独列异常情况存在。 明细层事实数据着重测试。对于金额、数量等度量值着重测试,避免*100,翻倍等异常情况。 抽样调查,抽部分数据查看每个字段数据是否与预期值一致。 多维度指标单维度汇总上卷核对。如果指标维度较多时,可以先核对总量是否与底层逻辑一致,再核对单原创 2020-12-03 00:05:43 · 143 阅读 · 0 评论 -
hive的 cube
hive的 cube 1.with cube 相当于group by 所有维度的union all 的集合 2.grouping sets 跟在 group by 子句后面,grouping_sets 相当于将聚合结果根据grouping_sets的算子进行二次聚合 ,并将所有聚合 union all . 注意:以()为一个group by 算子集。并且外层()不能漏 3.with rollup 跟在group by 后面,相当于grouping sets 从右到左依次递减算子作为一次group原创 2020-11-12 15:31:52 · 517 阅读 · 0 评论 -
hive alter table string 转decimal时 报不支持修改业务类型错误
hive alter table string 转decimal时 报不支持修改业务类型错误 如下解决方案为外部表(external table)解决方案 步骤1:删除表 步骤2:在原表hdfs路径上新建与原表结构相同并修改想修改的字段为decimal类型(前提是数据格文件格式为小数) 步骤3:msck repair table 上述步骤后 presto也不会报错。 ...原创 2020-10-27 20:43:19 · 1244 阅读 · 0 评论