大数据技术与数仓
文章平均质量分 90
白程序员的自习室
一个从事数据研发的数据人,主攻数仓建设和数据中台,主要分享个人的生活感悟,学习心得,工作的实践和方法论等,欢迎一起交流学习。
展开
-
数据相关常用名词,指标、标签、度量、口径、数据标准、血缘等名词解析
这里整理了数据人员,经常会接触到的名词和概念,了解这些专有名词对于数据研发和数据分析时,人员协作及研发都有很高的作用。原创 2023-01-30 20:10:03 · 2273 阅读 · 2 评论 -
指标与标签的区别?
在公司数据建设过程中,经常会使用和提到指标和标签,但是很多小伙伴对于两者的区别确不能讲清楚。实际上标签与指标一样,是理解数据的两种方式,在赋能业务上,两者同样重要。接下来将结合自身的理解,从定义、应用场景、分类等多个方面进行总结。原创 2022-12-04 22:26:52 · 1832 阅读 · 1 评论 -
Mac Os 安装配置Maven以及IntelliJ IDEA Maven使用
mac上安装maven、以及IDEA上Maven配置原创 2019-06-10 16:24:44 · 15569 阅读 · 1 评论 -
MAC下搭建Hadoop运行环境
Hadoop环境的搭建和配置还是有些麻烦的,尤其是mac,此处整理下自己搭建的过程和步骤。原创 2019-07-20 22:18:56 · 15737 阅读 · 18 评论 -
深入浅出Hive数据倾斜,最全面的讲解(好文收藏)
导读:我们日常使用HIVE SQL的时候可能会遇到这样一个令人苦恼的场景:执行一个非常简单的SQL语句,任务的进度条长时间卡在99%,不确定还需多久才能结束,这种现象称之为数据倾斜。这一现象出现的原因在于数据研发工程师主要关注分析逻辑和数据结果的正确性,却很少关注SQL语句的执行过程与效率。原创 2021-10-24 12:35:22 · 5217 阅读 · 0 评论 -
场景案例,最全面的Hive开窗函数讲解和实战指南(必看)
Hive 窗口函数不同于我们熟悉的常规函数及聚合函数,它为每行数据进行一次计算,特点是输入多行(一个窗口)、返回一个值。在报表等数据分析场景中,窗口函数真的很强大,灵活运用窗口函数可以解决很多复杂问题,比如去重、排名、同比及环比、连续登录等等。原创 2021-10-25 20:49:25 · 1637 阅读 · 0 评论 -
5000字长文解析:带你解读阿里大数据建设方法论OneData
导读:在建设大数据数据仓库时,首先要进行充分的业务调研和需求分析,这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功;其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度。再次对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。最后就是代码研发和运维。原创 2021-10-26 17:42:31 · 2335 阅读 · 0 评论