数据仓库
文章平均质量分 79
进击吧大数据
大数据技术和数仓实操;大数据技术架构手册编制者
展开
-
你知道数据发散和数据倾斜么?
该问题已同步到小程序:全栈面试题问题在数据开发日常工作当中,数据发散和数据倾斜问题是比较常见的。那么我们该如何判断呢?同时该如何规避这两种问题呢?注意:该问题也经常会被面试官拿来提问面试者解答基于以上问题,大佬们给出了如下的回答:数据发散Destiny:对于数据发散问题,可以查看left join关联对应的右表数据是否有重复,如果出现重复的情况,那么就会造成一对多,可能会出现发散情况。致远大佬给出了本质性的解答:数据发散是因为关联字段值不唯一导致的。Nic大佬分享了遇到的数据原创 2022-05-29 19:45:24 · 4532 阅读 · 2 评论 -
数据如何赋能?
该问题已同步到小程序:全栈面试题问题大家经常动不动就提到数据赋能,那么数据是如何为业务赋能的呢?就此问题,各位大佬们展开了激烈的讨论讨论congrats:对于中大型企业,数据已经成为了业务展开工作的基本构成部分了,比如每天运营、产品部门都等着要数据,等着出报表。商家看生意参谋、交易看板,这些都潜移默化为业务赋能了。对于传统企业转型,可以梳理出当前的企业数据资产,能够方便业务部门使用,这也算是为业务部门赋能。对于有一定数据文化的企业,会做一些数据治理、建立一些指标体系,更好的助力业务,原创 2022-05-29 19:44:41 · 4709 阅读 · 0 评论 -
面试题:如何验证指标结果准确?
问题昨日群内发起一项比较有意思而且开放性的问题:在日常工作当中,大家开发完指标后,是如何验证结果是准确的?这里把大佬们的思考分享出来,同时也做一下汇总,笔者能力和水平有限,如有错误之处,请多多指点。如果同学有更好的想法欢迎一起加入讨论。大佬解答以上大佬们的解答相信也是很多同学日常的操作,可以说是丝毫没有半点毛病。总结这里需要把该问题和保障数据一致性问题区分开来,本文讨论的是数据的准确性问题(DQC范畴)。笔者结合前面大佬们的讨论并查询了一些资料,做出一些总结供大家参考。主要分原创 2022-05-29 19:43:51 · 2637 阅读 · 0 评论 -
企业治理实战-经验分享
该文章已同步到语雀公开知识库《大数据技术架构手册-1》中;公众号后台回复“小程序注册码”可免费查看面试题小程序前言作为一名数据人,常常自嘲为SQL Boy,某天突然发现原来SQL boy还有一些更高级的工作内容:数据治理。这两年也有很多的大佬分享了很多关于数据治理、数字化转型的干货,个人也从中学习到了很多东西。但真正掌握这些内容和学习编程还是有很大的区别:学习编程可以通过一些简单的demo实践达到知行合一,但治理工作需要结合组织、流程、文化、制度等多因素,需要站在更高的层次,也就是常说的天时地利人和原创 2022-05-29 19:41:25 · 404 阅读 · 0 评论 -
依托公众号场景建设指标体系
概念首先看一下百度百科对指标体系的解释:“指标体系指的是若干个相互联系的统计指标所组成的有机体”。它主要由指标和体系两部分组成。那么也就是将零散指标通过某种关系系统化的整合起来形成完整的一棵树。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。体系是由不同的维度组成,而维度是指用户观察、思考与表述某事物的“思维角度”,维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。指标分类关于指标的分类,很多大佬以及原创 2021-12-25 22:14:04 · 1201 阅读 · 1 评论 -
一册在手,走遍天下(大数据技术架构手册之上篇十四万字问世)
大数据技术架构手册共计670页原创 2021-12-16 10:42:37 · 2107 阅读 · 1 评论 -
一文理解主数据和参考数据
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一小节将会解答如下疑惑:1、什么是主数据?2、主数据是干嘛用的?3、什么又是参考数据?4、参考数据又是干嘛用的?5、主数据和参考数据又有什么关系?主原创 2021-12-14 21:07:55 · 9878 阅读 · 1 评论 -
十分钟带你走进Hive世界(每走一步都是为了离你更近些)
本地开启Hive源码走读原创 2021-12-13 12:54:18 · 1426 阅读 · 1 评论 -
聊聊我对数仓建设的一些思考
数仓建设的一些思考原创 2021-12-13 12:52:37 · 1093 阅读 · 1 评论 -
面试官把我问懵了....
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料在前面介绍了Hadoop三部曲搞起~,简单理解了HDFS底层是如何完成读写功能的,在存储层面,HDFS采用了块抽象的方式简化了存储系统设计,即一个文件会被切分成多个块进行存储,在Hadoop 1.x中块的大小是64MB;在Hadoop 2.x中块的大小是128MB,当然在实际生产环境中,也有设置为256MB。那么这里大家思考一下,Hadoop为什么要原创 2021-12-06 00:01:41 · 697 阅读 · 1 评论 -
面试官问:UDF是在Map端执行还是Reduce端执行?
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料感谢首先感谢linxiang同学提供的文章素材,linxiang在一次课上抛出了这样一个问题"在面试过程中,面试官问到我UDF是在Map端执行的,还是在Reduce端执行的"。我刚听到这个问题的时候,有点没反应过来,因为这个问题确实平时没有去思考过,后来仔细想了下,才有了现在的这篇文章。通过本文,你将可以了解到:1、UDF和UDAF和UDTF之间的区原创 2021-12-05 23:54:55 · 1000 阅读 · 0 评论 -
Hive实现共同好友统计
需求描述在推荐业务场景中,会有些好友推荐的应用出现,例如现在的QQ好友推荐。那么在早些年头,关于共同好友的算法题是通过MR来实现的,也是大厂面试题中的一道。昨天跟朋友又聊到这道题目,讨论使用SQL如何实现?那么先来看下这道题的描述,以及扩展问题。问题描述: 比如某社交公司想实现一种功能给用户推荐好友,比如小明和小张不是好友,但是他们有一个共同好友小王,那么我们就可以把小明推荐给小张,给小张推荐小明。公司在推荐时,会根据共同好友数决定推荐的先后顺序。我们现在有以下表结构,假设数据如下::用户user原创 2021-05-20 13:08:47 · 1077 阅读 · 0 评论 -
二十张图让你一分钟全面学习数仓建设之路
最近在做自我知识体系的梳理,进行查缺补漏。同时也在辅导几位同学学习数仓,如果写数仓专题的话,首先知识点比较多,而且比较抽象,文章更新频率会很慢。所以笔者结合以前学习的资料和大佬们写的文章,这里直接对整个数仓的建设以图的形式展现给大家,也不会特别详细,至少能够让大家对数仓有个整体的认知,如图中出现错误,还希望大佬们多多指出,共同学习!数仓建设整体流程一、业务建模二、领域建模三、逻辑建模四、物理建模基于分层进行真正的实施阶段五、规范治理这原创 2021-03-10 09:09:57 · 593 阅读 · 0 评论 -
数据开发必经之路-数据倾斜
前言数据倾斜是数据开发中最常见的问题,同时也是面试中必问的一道题。那么何为数据倾斜?什么时候会出现数据倾斜?以及如何解决呢?何为数据倾斜:数据倾斜其本质就是数据分配不均匀,部分任务处理大量的数据量导致整体job的执行时间拉长。什么时候出现数据倾斜:无论是spark,还是mapreduce,数据倾斜大部分都是出现在shuffle阶段,也就是所谓的洗牌,由于使用的洗牌策略不一样,那么数据划分也就不一样,一般常用的也就是hash算法了。基于上面两个问题的解答,对于数据倾斜的解决方案其本质就是如何把数据分原创 2020-10-05 13:46:24 · 313 阅读 · 0 评论 -
元数据管理-技术元数据解决方案
前言概念元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述元数据是数仓建设环节中不可缺少的一部分(尤其是在数据治理环节),是数据管理、数据内容、数据应用的基础。通过元数据可以打通数据源、数据仓库、数据应用、记录了数据流向的完整链路。它可以说是企业的数据地图,可以直接反映了企业中有什么样的数据,这些数据是如何存放的,以及数据之间的关系是如何的。分类参考Kimba原创 2020-10-01 08:54:44 · 2968 阅读 · 2 评论 -
数仓利器-Hive高频函数合集
文章目录前言数据准备数据集建表语句窗口函数row_number:使用频率 ★★★★★rank :使用频率 ★★★★dense_rank:使用频率 ★★★★rank/dense_rank/row_number对比first_value:使用频率 ★★★last_value:使用频率 ★lead:使用频率 ★★lag:使用频率 ★★集合相关collect_set:使用频率 ★★★★★collect_list:使用频率 ★★★★★sort_array:使用频率 ★★★URL相关parse_url:使用频率 ★★★原创 2020-09-12 17:50:47 · 310 阅读 · 0 评论