自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数仓知识梳理

什么是数仓为什么要构建数据仓库一、千里之行始于足下-数据同步1.同步方式:1>.直连同步,jdbc方式适合操作形业务系统数据同步。但是这种方式对数据库的性能影响较大,一般可以采取主备策略,从备库抽取数据。sqoop、datax2>.数据文件同步,通过约定好的编码格式、大小等从源系统生成txt文件,通过ftp传输等方式加载到目标数据库。为保证文件同步的安全性和准确性,可以考虑源系统增加压缩和加密到目标系统解密和解压缩的方式。3>.日志binlog同步,实现实时同步。性能好,效率高

2020-07-13 17:54:18 1887

原创 计算客服操作的净处理时长

1.去掉连续类型计算时长操作记录只剩下两种类型,客户操作U,客服操作T。计算UT之间的时间差。例如U1->U2->T1->T2,只算U1和T1之间的时间差。例如T1->T2->U1-U2-T3,只算U1和T3之间的时间差。例如T1->U1-T2->U2->T3,计算U1和T2,U2和T3的时间差。如果最后一条记录不是客服操作,也不是8和52,那么处理时长还需要加上(当前时间减去最后一条记录的时间点。 tmp_jsc as ( s.

2020-12-05 10:46:34 319

转载 hive、spark优化

hive、spark优化看了文章https://blog.csdn.net/qq_26442553/article/details/99438121,总结了的。感谢@涤生大大的精彩分享小文件过多小文件过多引起maptask太多,初始化时间远大于逻辑处理时间。此时我们可以合并小文件。hive,调节参数:set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --hive0.5开始就是默认值,执行ma

2020-12-04 01:46:41 230

原创 数据质量

上线前测试上线前充分测试,以保证在交付上线的时候,数据的准确性。主要可以从以下几个点去测试:数据测试整体从一致性和精确性两个点去做测试。条数核对。与底层逻辑的数据量进行核对,数据条数保持一致整体调查。查出每一个字段,看是否有字段全空,全0等单独列异常情况存在。明细层事实数据着重测试。对于金额、数量等度量值着重测试,避免*100,翻倍等异常情况。抽样调查,抽部分数据查看每个字段数据是否与预期值一致。多维度指标单维度汇总上卷核对。如果指标维度较多时,可以先核对总量是否与底层逻辑一致,再核对单

2020-12-03 00:05:43 143

原创 hive的 cube

hive的 cube1.with cube相当于group by 所有维度的union all 的集合2.grouping sets跟在 group by 子句后面,grouping_sets 相当于将聚合结果根据grouping_sets的算子进行二次聚合 ,并将所有聚合 union all .注意:以()为一个group by 算子集。并且外层()不能漏3.with rollup跟在group by 后面,相当于grouping sets 从右到左依次递减算子作为一次group

2020-11-12 15:31:52 517

原创 hive alter table string 转decimal时 报不支持修改业务类型错误

hive alter table string 转decimal时 报不支持修改业务类型错误如下解决方案为外部表(external table)解决方案步骤1:删除表步骤2:在原表hdfs路径上新建与原表结构相同并修改想修改的字段为decimal类型(前提是数据格文件格式为小数)步骤3:msck repair table上述步骤后 presto也不会报错。...

2020-10-27 20:43:19 1242

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除