胡大宝_fighting-CSDN博客

原创数仓知识梳理

什么是数仓为什么要构建数据仓库一、千里之行始于足下-数据同步1.同步方式：1>.直连同步，jdbc方式适合操作形业务系统数据同步。但是这种方式对数据库的性能影响较大，一般可以采取主备策略，从备库抽取数据。sqoop、datax2>.数据文件同步，通过约定好的编码格式、大小等从源系统生成txt文件，通过ftp传输等方式加载到目标数据库。为保证文件同步的安全性和准确性，可以考虑源系统增加压缩和加密到目标系统解密和解压缩的方式。3>.日志binlog同步，实现实时同步。性能好，效率高

2020-07-13 17:54:18 1948

原创计算客服操作的净处理时长

1.去掉连续类型计算时长操作记录只剩下两种类型，客户操作U，客服操作T。计算UT之间的时间差。例如U1->U2->T1->T2，只算U1和T1之间的时间差。例如T1->T2->U1-U2-T3,只算U1和T3之间的时间差。例如T1->U1-T2->U2->T3,计算U1和T2，U2和T3的时间差。如果最后一条记录不是客服操作，也不是8和52，那么处理时长还需要加上（当前时间减去最后一条记录的时间点。 tmp_jsc as ( s.

2020-12-05 10:46:34 343

转载 hive、spark优化

hive、spark优化看了文章https://blog.csdn.net/qq_26442553/article/details/99438121，总结了的。感谢@涤生大大的精彩分享小文件过多小文件过多引起maptask太多，初始化时间远大于逻辑处理时间。此时我们可以合并小文件。hive，调节参数：set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --hive0.5开始就是默认值，执行ma

2020-12-04 01:46:41 244

原创数据质量

上线前测试上线前充分测试，以保证在交付上线的时候，数据的准确性。主要可以从以下几个点去测试：数据测试整体从一致性和精确性两个点去做测试。条数核对。与底层逻辑的数据量进行核对，数据条数保持一致整体调查。查出每一个字段，看是否有字段全空，全0等单独列异常情况存在。明细层事实数据着重测试。对于金额、数量等度量值着重测试，避免*100，翻倍等异常情况。抽样调查，抽部分数据查看每个字段数据是否与预期值一致。多维度指标单维度汇总上卷核对。如果指标维度较多时，可以先核对总量是否与底层逻辑一致，再核对单

2020-12-03 00:05:43 152

原创 hive的 cube

hive的 cube1.with cube相当于group by 所有维度的union all 的集合2.grouping sets跟在 group by 子句后面，grouping_sets 相当于将聚合结果根据grouping_sets的算子进行二次聚合 ,并将所有聚合 union all .注意：以（）为一个group by 算子集。并且外层（）不能漏3.with rollup跟在group by 后面，相当于grouping sets 从右到左依次递减算子作为一次group

2020-11-12 15:31:52 534

原创 hive alter table string 转decimal时报不支持修改业务类型错误

hive alter table string 转decimal时报不支持修改业务类型错误如下解决方案为外部表（external table）解决方案步骤1：删除表步骤2：在原表hdfs路径上新建与原表结构相同并修改想修改的字段为decimal类型（前提是数据格文件格式为小数）步骤3：msck repair table上述步骤后 presto也不会报错。...

2020-10-27 20:43:19 1295

u013219053的博客

原创数仓知识梳理

原创计算客服操作的净处理时长

转载 hive、spark优化

原创数据质量

原创 hive的 cube

原创 hive alter table string 转decimal时报不支持修改业务类型错误

空空如也

空空如也

原创 数仓知识梳理

原创 计算客服操作的净处理时长

转载 hive、spark优化

原创 数据质量

原创 hive的 cube

原创 hive alter table string 转decimal时 报不支持修改业务类型错误

空空如也

空空如也

原创数仓知识梳理

原创计算客服操作的净处理时长

原创数据质量

原创 hive alter table string 转decimal时报不支持修改业务类型错误