![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
翟工的分享空间
这个作者很懒,什么都没留下…
展开
-
数据岗位方向的职业走势
之前说了数仓开发的技术梳理,今天给大家做一些职业规划吧,包括要用到的技术栈。东西有点多,所以就用xmind的形式给大家了。数据工程师的知识图谱数据工程师的职责分工数据平台(弱业务、强技术)数据仓库(强业务、强宏观体系)数据分析(强业务、强分析)数据挖掘(强业务、强算法、强技术)数据工程师的发展建议热爱技术,选择平台或者算法热爱业务,选择分析或者仓库期望全面发展,推荐数据仓库...原创 2020-05-17 18:57:02 · 614 阅读 · 0 评论 -
数仓的理解(一)
一、数仓的意义为什么要有数据仓库说起数据仓库存在的意义就必须得说企业面临的数据问题。结构复杂数据脏乱理解困难缺少历史总结一句话就是:多源异构、脏乱差的数据现象。数据仓库的价值体现效果诊断预警二、数据体系数据体系构成常见技术架构偏离线:适用于业务初期,迅速形成数仓雏形,快速交付满足业务离线+实时:适合业务中后期,形成扩展性极强的技术架构偏实时:适合特...原创 2020-05-05 15:28:24 · 1170 阅读 · 0 评论 -
计算每周第一天和最后一天
计算每周第一天和最后一天select day ,dayofweek(day) as dw1 ,date_add(day,1 - dayofweek(day)) ...原创 2020-04-13 14:13:00 · 862 阅读 · 0 评论 -
UDF解析json
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本文描述了HIve的一些基本操作,如有错误之处还请指出。常用语法#显示相关...转载 2020-03-08 21:45:14 · 688 阅读 · 0 评论 -
hive中UDF开发:解析json对象和解析json数组对象
查阅hive的UDF函数指南可知,虽然udf中...转载 2020-03-08 21:38:57 · 649 阅读 · 0 评论 -
数据集市层面重构的一些再补充
优化目的主要分为以下几点:缩短画像整体的SLA。减少中间表层级。减少中间表数量。减少计算资源。减少存储资源。方便后续迭代。避免后续下游使用歧义,减少case。在重构过程中,可以从以下2个层面进行:数据治理层面表结构——在非必要情况下,尽可能不对表结构和字段名称进行更改。最大限度对下游使用无感知,以达到重构成本最低。字段命名——除去命名极其不规范,或对下游极易造成歧义的字...原创 2020-02-29 12:40:02 · 401 阅读 · 0 评论 -
关于数仓里画像层的构建的一些思考
写一些关于数据仓库里面,数据集市(画像层)的东西吧最近一直都没写文章,因为太忙了,公司很多事情,主要画像层的一些重构,搞得我死去活来,所以写一篇文章给大家分享一下,如何构建一个良好的数据集市。情况呢是这样的,现在有很多的B端画像(交易,流量,什么的这种),但是呢,这些个画像,几年前就构建好了,而且SQL写的极其复杂,导致SLA已经很晚了,所以要优化重构。我这里主要说几点吧。1.中间表尽量少—...原创 2020-02-15 11:59:06 · 340 阅读 · 2 评论 -
关于数据质量的自己一些想法
之前很多人都在催我,让我写一些关于数据质量管理的东西,今天就稍微整理一点吧(仅为个人意见,不喜勿喷。欢迎指点交流。)个人认为呢,数据质量管理(DQC)分为以下几点。一、表级别的监控可以用同环比之类的进行校验,根据实际业务情况设定告警阈值:比方说一些公司,工作日的订单和流量就是一般,而到了双休日就会猛增,此时如果仅仅用单纯的固定阈值来进行监控,(如:大于50%)。那对于事实表和数据集市的表...原创 2020-01-04 22:42:57 · 565 阅读 · 0 评论 -
给大家随便出点数仓面试题
#最近工作太忙了,有很多人和我说,哎呀博主啊,你这个是阉割了嘛,怎么就写了一篇啊,没下文了啊?其实不是的,最近工作真的是太忙了,到新公司,很多事情,而且家里事情很多。那现在就给大家出点数仓的面试题吧,希望帮到大家。之后具体的学习流程呢,我会出的。有时间一定出。##本面试题仅仅为本人和别人讨论下来的面试题,不作为任何公司的面试题。(如有雷同,纯属巧合)...原创 2019-12-26 14:04:19 · 1145 阅读 · 0 评论