实习中了解的互联网数仓

大数据平台

之前在两家互联网企业都做过数仓相关方面的实习岗位,一家中大厂,一家大厂。在这里简单分享一些数仓在企业中实际的运作,方便一些对数仓有兴趣但尚未在企业中数仓岗位实践过的同学了解。

数据开发平台

一般来说,中型或大型企业都会有自己的大数据平台或者使用一些开源的大数据平台再进行修改,所以一般不需要自己像在本地实践那样自己在linux上提交任务(同时如果是离线开发的话,一般是不需要直接用scala或者其它语言写spark代码的,都是直接使用写sql的方式即hive on spark的方式进行开发),因此在公司的平台上进行代码开发是十分方便的。企业级的大数据平台都会集成相当多的功能,从开发的角度来说,最主要的包括但不限于数据导入导出任务,数据集成任务,离线数据开发任务等。

 

(此图为某大数据平台的离线开发任务截图,可以看到图中可以选择执行的执行引擎,根据两次实习的情况,现在一般已经淘汰掉mapreduce,离线开发基本上统一采用spark引擎;同时还可以看到需要选择该任务是需要哪一个业务组的,以及需要选择连接哪一个队列。图片侵删)

快速查询平台

一般企业级的数仓开发任务涉及的数据量都较为庞大,所写的代码也可能比较复杂。有时开发人员需要提前探查部分数据或者检验部分代码是否有预期的结果,此时如果直接在数据开发平台上创建任务不太现实,因为会十分浪费资源。这种情况下企业里一般会提供一个快速查询平台,采用presto或者Impala等相关OLAP引擎搭建,这类引擎支持在线快速查询,可以方便用户快速地获取查询结果,以方便开发。

(图片侵删) 

资源调度平台

除了开发任务以外,大数据平台不可缺少的还有资源管理平台,一般采用yarn作为底层主体进行资源调度管理。在企业里,不同部门里不同的组都会被分配一定量的资源( cpu和内存)。一般来说,越核心的业务被分配到的资源就会越多,以节省企业成本。

在资源管理平台上,可以时刻查看当前有多少比例的cpu和memory正在被使用,每个任务又在其中占了多少的比例。通过资源平台面板可以观察是否有可能存在资源超发的情况,如果发现可能即将存在或者已经存在的话,就要考虑进行任务调优或者向资源平台暂时借一些队列资源(紧急情况下可以考虑停掉一些优先级比较低的任务)

元数据管理平台

作为企业级的大数据平台,为了管理庞大的数据以及方便不同部门的人了解不同业务的数据情况,还需要有一个元数据平台进行整体的数据管理。在大型企业里,由于业务的复杂性,会创建相当多的字段,此时就可能出现在不同业务中同一含义起了不同的字段名称,又或者同一字段名称有不同的业务含义,进而导致其它人员在选取字段时出现困惑,不知道选择哪一个。为了尽可能避免这种情况,会创建一种叫“数据字典” (不同企业可能叫法不同)的面板,在这个面板上可以查到每个业务(在企业中可能会用数仓中主题域和主题的概念进行替换)下目前都创建了哪些字段,每个字段都代表什么意思,当需要创建新字段的时候,需要将其添加到数据字典里。当然, 为了统一规范,每个企业里都会写一些规范文档来告知应该如何给一些业务含义起名,比如在游戏业务中的英雄名称应该用什么英文,游戏中的击杀动作又应该用什么来起名,进而避免大家的习惯不一造成困惑。

除了管理庞大的业务字段以外,元数据平台上还会有面板展示其它相当多的元信息,下图中可以看到当前企业中有多少业务创建了多少库,总体使用了多少资源。

(某大数据平台的元数据总体面板,图片侵删)

数据地图

数据地图,应该是近几年很多企业都会努力完善的一个数据方向,它主要的作用有以下两个:

  • 展示每个表的元信息:每个表有哪些字段,当前该表存储在哪,每天的数据量和数据条数有多少,当前总体的数据大小有多少等等。
  • 展示不同表之间的关系:用于溯源,即展示该表当前涉及到哪些任务,这些任务的上下游有哪些(有限定最大上游和最大下游个数)。

(某大数据平台的数据地图页面,图片侵删) 

在企业中,数据地图会被大家广泛使用。开发人员在开发的时候会到数据地图平台上查看需要用到的表的信息;在初步开发完成后测试阶段会到数据地图上查看是否有预期数量的字段产生。对于产品人员来说,会到数据地图上查看当前某个业务下已存在哪些表,了解当前有哪些信息是需要改进或者新加的,进而讨论是否有开发的需求。

BI平台

除了数据开发平台和上述的其它平台外,开发完的数据当然要有所利用,自然而然就会有BI平台供相关人员进行数据分析。BI平台不需要过多的介绍,一般就是利用数据进行一些报表开发(比例最高,直接展示一些汇总数据很多时候最高效),或者制作一些图表像线形图扇形图等。除此之外,可能还会有一些更高级的功能比如AB实验等,因为笔者没干过数据分析之类的岗位,这里就不过多赘述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LkChase

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值