u013219053的博客

私信 关注
胡大宝_fighting
码龄7年
  • 600
    被访问量
  • 5
    原创文章
  • 766,161
    作者排名
  • 2
    粉丝数量
  • 于 2013-12-19 加入CSDN
获得成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得6次收藏
荣誉勋章
兴趣领域
  • #大数据
    #hadoop#数据仓库#spark#ETL#storm#hive
TA的专栏
  • 数据仓库
    5篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

计算客服操作的净处理时长

1.去掉连续类型计算时长操作记录只剩下两种类型,客户操作U,客服操作T。计算UT之间的时间差。例如U1->U2->T1->T2,只算U1和T1之间的时间差。例如T1->T2->U1-U2-T3,只算U1和T3之间的时间差。例如T1->U1-T2->U2->T3,计算U1和T2,U2和T3的时间差。如果最后一条记录不是客服操作,也不是8和52,那么处理时长还需要加上(当前时间减去最后一条记录的时间点。 tmp_jsc as ( s.
原创
20阅读
0评论
0点赞
发布博客于 3 月前

hive、spark优化

hive、spark优化看了文章https://blog.csdn.net/qq_26442553/article/details/99438121,总结了的。感谢@涤生大大的精彩分享小文件过多小文件过多引起maptask太多,初始化时间远大于逻辑处理时间。此时我们可以合并小文件。hive,调节参数:set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --hive0.5开始就是默认值,执行ma
转载
58阅读
0评论
0点赞
发布博客于 3 月前

数据质量

上线前测试上线前充分测试,以保证在交付上线的时候,数据的准确性。主要可以从以下几个点去测试:数据测试整体从一致性和精确性两个点去做测试。条数核对。与底层逻辑的数据量进行核对,数据条数保持一致整体调查。查出每一个字段,看是否有字段全空,全0等单独列异常情况存在。明细层事实数据着重测试。对于金额、数量等度量值着重测试,避免*100,翻倍等异常情况。抽样调查,抽部分数据查看每个字段数据是否与预期值一致。多维度指标单维度汇总上卷核对。如果指标维度较多时,可以先核对总量是否与底层逻辑一致,再核对单
原创
23阅读
0评论
0点赞
发布博客于 3 月前

hive的 cube

hive的 cube1.with cube相当于group by 所有维度的union all 的集合2.grouping sets跟在 group by 子句后面,grouping_sets 相当于将聚合结果根据grouping_sets的算子进行二次聚合 ,并将所有聚合 union all .注意:以()为一个group by 算子集。并且外层()不能漏3.with rollup跟在group by 后面,相当于grouping sets 从右到左依次递减算子作为一次group
原创
18阅读
0评论
1点赞
发布博客于 3 月前

hive alter table string 转decimal时 报不支持修改业务类型错误

hive alter table string 转decimal时 报不支持修改业务类型错误如下解决方案为外部表(external table)解决方案步骤1:删除表步骤2:在原表hdfs路径上新建与原表结构相同并修改想修改的字段为decimal类型(前提是数据格文件格式为小数)步骤3:msck repair table上述步骤后 presto也不会报错。...
原创
28阅读
0评论
0点赞
发布博客于 4 月前

数仓知识梳理

什么是数仓为什么要构建数据仓库一、千里之行始于足下-数据同步1.同步方式:1>.直连同步,jdbc方式适合操作形业务系统数据同步。但是这种方式对数据库的性能影响较大,一般可以采取主备策略,从备库抽取数据。sqoop、datax2>.数据文件同步,通过约定好的编码格式、大小等从源系统生成txt文件,通过ftp传输等方式加载到目标数据库。为保证文件同步的安全性和准确性,可以考虑源系统增加压缩和加密到目标系统解密和解压缩的方式。3>.日志binlog同步,实现实时同步。性能好,效率高
原创
381阅读
0评论
2点赞
发布博客于 7 月前