什么是数据分层,数据分层的作用!，2024年最新2024年华为Golang面试真题解析

最新推荐文章于 2024-09-05 17:46:16 发布

卿卿草原

最新推荐文章于 2024-09-05 17:46:16 发布

阅读量723

点赞数 7

分类专栏：程序员文章标签： golang 面试开发语言

本文链接：https://blog.csdn.net/m0_54903333/article/details/137724192

版权

本文介绍了数据分层的三个层次：数据源层、数据仓库层和数据产品层，强调了数据清洗的重要性。并分享了一位开发者参与设计的数据分层实例，包括缓冲层、明细层、轻度汇总层、主题层和应用层的详细说明。此外，还讨论了数据分层的优化和常见问题，以及Golang面试的相关知识点。

摘要由CSDN通过智能技术生成

但是，这一层面的数据却不等同于原始数据。在源数据装入这一层时，要进行诸如去噪（例如去掉明显偏离正常水平的银行刷卡信息）、去重（例如银行账户信息、公安局人口信息中均含有人的姓名，但是只保留一份即可）、提脏（例如有的人的银行卡被盗刷，在十分钟内同时有两笔分别在中国和日本的刷卡信息，这便是脏数据）、业务提取、单位统一、砍字段（例如用于支撑前端系统工作，但是在数据挖掘中不需要的字段）、业务判别等多项工作。

2. 数据仓库层(DW)，是数据仓库的主体

在这里，从ODS层中获得的数据按照主题建立各种数据模型。例如以研究人的旅游消费为主题的数据集中，便可以结合航空公司的登机出行信息，以及银联系统的刷卡记录，进行结合分析，产生数据集。在这里，我们需要了解四个概念：维（dimension）、事实（Fact）、指标（Index）和粒度（ Granularity）。

3. 数据产品层（APP），这一层是提供为数据产品使用的结果数据

在这里，主要是提供给数据产品和数据分析使用的数据，一般会存放在es、mysql等系统中供线上系统使用，也可能会存在Hive或者Druid中供数据分析和数据挖掘使用。
比如我们经常说的报表数据，或者说那种大宽表，一般就放在这里。

技术实践

这三层技术划分，相对来说比较粗粒度，后面我们会专门细分一下。在此之前，先聊一下每一层的数据一般都是怎么流向的。这里仅仅简单介绍几个常用的工具，侧重中开源界主流。

1. 数据来源层–> ODS层

这里其实就是我们现在大数据技术发挥作用的一个主要战场。我们的数据主要会有两个大的来源：

业务库，这里经常会使用sqoop来抽取，比如我们每天定时抽取一次。在实时方面，可以考虑用canal监听mysql的binlog，实时接入即可。
埋点日志，线上系统会打入各种日志，这些日志一般以文件的形式保存，我们可以选择用flume定时抽取，也可以用用spark streaming或者storm来实时接入，当然，kafka也会是一个关键的角色。
其它数据源会比较多样性，这和具体的业务相关，不再赘述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意： 在这层，理应不是简单的数据接入，而是要考虑一定的数据清洗，比如异常字段的处理、字段命名规范化、时间字段的统一等，一般这些很容易会被忽略，但是却至关重要。特别是后期我们做各种特征自动生成的时候，会十分有用。后续会有文章来分享。

2. ODS、DW --> App层

这里面也主要分两种类型：

每日定时任务型：比如我们典型的日计算任务，每

最低0.47元/天解锁文章

卿卿草原

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
什么是数据分层,数据分层的作用!，2024年最新2024年华为Golang面试真题解析

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数Go语言工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年Go语言全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。
复制链接

扫一扫

专栏目录