自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 计算客服操作的净处理时长

1.去掉连续类型计算时长操作记录只剩下两种类型,客户操作U,客服操作T。计算UT之间的时间差。例如U1->U2->T1->T2,只算U1和T1之间的时间差。例如T1->T2->U1-U2-T3,只算U1和T3之间的时间差。例如T1->U1-T2->U2->T3,计算U1和T2,U2和T3的时间差。如果最后一条记录不是客服操作,也不是8和52,那么处理时长还需要加上(当前时间减去最后一条记录的时间点。 tmp_jsc as ( s.

2020-12-05 10:46:34 337

转载 hive、spark优化

hive、spark优化看了文章https://blog.csdn.net/qq_26442553/article/details/99438121,总结了的。感谢@涤生大大的精彩分享小文件过多小文件过多引起maptask太多,初始化时间远大于逻辑处理时间。此时我们可以合并小文件。hive,调节参数:set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --hive0.5开始就是默认值,执行ma

2020-12-04 01:46:41 240

原创 数据质量

上线前测试上线前充分测试,以保证在交付上线的时候,数据的准确性。主要可以从以下几个点去测试:数据测试整体从一致性和精确性两个点去做测试。条数核对。与底层逻辑的数据量进行核对,数据条数保持一致整体调查。查出每一个字段,看是否有字段全空,全0等单独列异常情况存在。明细层事实数据着重测试。对于金额、数量等度量值着重测试,避免*100,翻倍等异常情况。抽样调查,抽部分数据查看每个字段数据是否与预期值一致。多维度指标单维度汇总上卷核对。如果指标维度较多时,可以先核对总量是否与底层逻辑一致,再核对单

2020-12-03 00:05:43 151

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除