Hive
文章平均质量分 80
进击吧大数据
大数据技术和数仓实操;大数据技术架构手册编制者
展开
-
Hive专题-数据修复篇
相信使用过Hive的同学,一定会知道msck repair的用途(元数据修复)。那么不知道大家有没有好奇过Hive底层是怎么实现该机制的呢?这里带大家简单了解一下。一、基本解释在HMS(Hive MetaStore)中存储着每个表的分区列表,但如果一个新的分区通过HDFS直接添加或者删除的话,那么元数据是不会感知到这些分区信息的变化,这个时候可以通过Alter table table_name add/drop partition命令来手动增加或者删除分区。除了alter命令之外呢,还可以通过msck原创 2021-12-25 22:15:30 · 3044 阅读 · 2 评论 -
一册在手,走遍天下(大数据技术架构手册之上篇十四万字问世)
大数据技术架构手册共计670页原创 2021-12-16 10:42:37 · 2137 阅读 · 1 评论 -
一文理解主数据和参考数据
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一小节将会解答如下疑惑:1、什么是主数据?2、主数据是干嘛用的?3、什么又是参考数据?4、参考数据又是干嘛用的?5、主数据和参考数据又有什么关系?主原创 2021-12-14 21:07:55 · 10087 阅读 · 1 评论 -
十分钟带你走进Hive世界(每走一步都是为了离你更近些)
本地开启Hive源码走读原创 2021-12-13 12:54:18 · 1458 阅读 · 1 评论 -
(全网首篇)数仓专题-及时性保障方案
在数仓的建设之路中,其中必不可少的一个依赖组件就是调度系统。目前市面上也有很多优秀产品,如以DAG为核心的工作流系统:Azkaban、Oozie、Airflow、DolphinScheduler;以Quartz为代表的定时系统包括Elastic-Job、Xxl-Job、Saturn、PowerJob等,关于调度系统的重要性,这里不作阐述。众所周知,在数仓的建设标准中,其中包括了及时性以及稳定性两个衡量指标,同时这两项指标的好坏也依赖于调度系统的运行是否正常以及功能是否丰富。那么本篇将围绕着数仓建设的标准来原创 2021-12-10 21:05:32 · 1347 阅读 · 0 评论 -
面试官问:UDF是在Map端执行还是Reduce端执行?
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料感谢首先感谢linxiang同学提供的文章素材,linxiang在一次课上抛出了这样一个问题"在面试过程中,面试官问到我UDF是在Map端执行的,还是在Reduce端执行的"。我刚听到这个问题的时候,有点没反应过来,因为这个问题确实平时没有去思考过,后来仔细想了下,才有了现在的这篇文章。通过本文,你将可以了解到:1、UDF和UDAF和UDTF之间的区原创 2021-12-05 23:54:55 · 1047 阅读 · 0 评论 -
Hive专题-数据倾斜定位篇
对于如何解决数据倾斜,网上的资料也有很多。之前也总结过关于hive和spark的解决方案文章:Spark数据倾斜之骚操作解决方案Hive千亿级数据倾斜解决方案数据开发必经之路-数据倾斜但是对于如何定位到数据倾斜,大多数同学或许都是根据经验判断,可能对于某个reduce一直处于99%进度或者一个任务计算处理超过1个小时以上就可以判定为倾斜问题了。但是无法证明其自己的猜测或者事后进行数据抽样。那么本篇仅以Hive为例,来分享下如何在事后定位到是否倾斜以及倾斜对应的key。1、首先从yarn原创 2021-08-23 14:30:16 · 498 阅读 · 0 评论 -
Hive实现共同好友统计
需求描述在推荐业务场景中,会有些好友推荐的应用出现,例如现在的QQ好友推荐。那么在早些年头,关于共同好友的算法题是通过MR来实现的,也是大厂面试题中的一道。昨天跟朋友又聊到这道题目,讨论使用SQL如何实现?那么先来看下这道题的描述,以及扩展问题。问题描述: 比如某社交公司想实现一种功能给用户推荐好友,比如小明和小张不是好友,但是他们有一个共同好友小王,那么我们就可以把小明推荐给小张,给小张推荐小明。公司在推荐时,会根据共同好友数决定推荐的先后顺序。我们现在有以下表结构,假设数据如下::用户user原创 2021-05-20 13:08:47 · 1275 阅读 · 0 评论 -
元数据管理-技术元数据解决方案
前言概念元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述元数据是数仓建设环节中不可缺少的一部分(尤其是在数据治理环节),是数据管理、数据内容、数据应用的基础。通过元数据可以打通数据源、数据仓库、数据应用、记录了数据流向的完整链路。它可以说是企业的数据地图,可以直接反映了企业中有什么样的数据,这些数据是如何存放的,以及数据之间的关系是如何的。分类参考Kimba原创 2020-10-01 08:54:44 · 3018 阅读 · 2 评论 -
数仓利器-Hive高频函数合集
文章目录前言数据准备数据集建表语句窗口函数row_number:使用频率 ★★★★★rank :使用频率 ★★★★dense_rank:使用频率 ★★★★rank/dense_rank/row_number对比first_value:使用频率 ★★★last_value:使用频率 ★lead:使用频率 ★★lag:使用频率 ★★集合相关collect_set:使用频率 ★★★★★collect_list:使用频率 ★★★★★sort_array:使用频率 ★★★URL相关parse_url:使用频率 ★★★原创 2020-09-12 17:50:47 · 333 阅读 · 0 评论