你想了解的数据架构都在这

数据分析 专栏收录该内容
14 篇文章 1 订阅

一、背景

最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。

二、我做过什么

很多大数据数据仓库人员都是从事过传统BI业务或者数据库业务的。传统BI一般都是Oracle存储过程,O是真的牛,很多银行和电力业务目前还是存储过程写的业务代码。自己曾经亲身经历过,两千行的业务package,写起来和改起来特别有“成就感”!后来听说了Hadoop,网上自己自己找资料,Win环境搭建了起来,现在去百度还能搜到那篇文章。后来再也不推荐别人去碰Win搭建Hadoop!

后来机遇,进了大数据行业,参与主导了一些大数据从无到有的建设过程。真的很感谢那段晚上十点后回家的岁月,还有工作中的伙伴,这段工作算是自己的一个能力的很大提升。从没有接触过Linux到写过近1000行的数据处理脚本,现在公司应该还在用吧。接触运维了百亿级别数据聚合秒出的Vertica (商业软件真好用),建了一个100多人的技术交流群,虽然不活跃,但确实帮到很多人。(还专门申请了一个Vertica的域名,部署了自己博客 http://vertica.club/ ,又该续费了……)

了解了zeppelin,参与了早期的一些功能建议和验证,虽然后来工作中没用到,自己也没有再跟社区,但这个工具真好用,这是专门给数据人的工具,非常好,可以写出很漂亮的数据报告。(下面找我名字吧…)

三、数据人应该做什么

还是说说我熟悉的数据仓库建设。个人认为数据人员可以走两个大方向提升自己(当然数仓理论知识必须得掌握),一、精通业务,熟练SQL,加强工程能力。记住工程能力很重要!二、了解算法,掌握PYTHON,熟练做分析。我是那种什么都想做的人……

1)、精通业务,就要做到业务指标的标准由你说了算,努力成为业务专家,参与一些重要指标的定义。比如去看公司的Wiki,通过在公司熟悉的同事找到业务架构负责人,了解相关资料。

2)、熟练SQL,并不仅仅是熟练写。要做到了解SQL的执行计划,掌握执行数据库环境的调优。当然很多人会说这是DBA做的工作,但是数据人应该比DBA写的SQL多吧,当你发现你写的一段逻辑能从1个小时优化到5分钟,你就会发现这是多有成就感。掌握数据库,要从数据库的存储架构出发,掌握数据库的简单管理,熟练应用场景。最终你掌握几种数据库使用后,你会发现你能够帮助公司或部门做数据库选型了。

算法这个笔者自己现在还没真正入门,学习中……,欢迎大神带进门!

四、如何做

1),既然是做大数据的数据仓库,对大数据各个组件要有了解,对大数据整个处理架构要有了解,从数据采集,到处理,再到数据展示,数据运营等,都需要了解。推荐一本书《大数据之路》,很感谢上家公司选购了这本书,给员工看。

2),SQL 熟能生巧,其实可以尝试用SQL写一些小工具,记得自己15年的时候闲暇写了一个身份证解析的包,大家用着很不错。附上代码 :https://blog.csdn.net/windyqcf/article/details/46048657

3),养成笔记的习惯,记得刚开始接触Vertica数据库的时候,自己上网百度,很少有资料,没办法,只能自己看英文版的官方文档,在自己的环境和工作中尝试总结,形成博客,慢慢发现自己积累了很多。

五、数据中台的理解

  • 什么是数据中台

    数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4部分:数据资产、数据治理、数据模型、数据服务。 image

    打通数据建模对全域数据进行沉淀形成数据资产,从而提供统一的数据服务功能。

  • 如何建立数据中台

建设数据中台主要就是从数据模型、数据资产、数据治理、数据服务四部分出发。

首先需要做整体规划,哪些数据需要纳入到数据中台中,根据数据接入的情况,进行技术选型,评估集群的配置,规划至少3年的计算和存储资源。

  • 数据模型

    数据模型,就是我们熟悉的数据仓库中的模型,按照数据仓库规范分层开发模型,实现数据的标准化,多采用维度建模。还有一些挖掘模型,如果用的多了,也可以沉淀到数据中台中。我们可以看出数据中台中的模型具有通用性。

数据建模一般分为2个步骤:

  1. 确认事实表,分析业务的生命周期,明确业务的关键步骤。在进行指标定义的时候是否覆盖了本主题语中的全部指标,判断哪些指标可以通过加减乘除计算得到等。
  2. 确定维度,粒度是模型设计的关键,太细的粒度不利于上层数据分析汇总,太粗的粒度又不能满足前段多维度个性化查询需求。基于此,模型设计时候一般考虑分层,层级越往后,粒度越粗。冗余维度也是需要考虑的,设计冗余的维度可以避免统计中过多的关联导致复杂的计算逻辑,影响性能。
  • 数据资产

在数据仓库中我们已经建立了一些模型,但是只有打通数据孤岛后才可以称为资产。需要规范指标库,这些指标可以组合处理满足外部人员个性化的指标需求。资产管理的基础是做好元数据管理,元数据包括采集的接口信息,模型信息、指标定义,作业的血缘关系、数据存储以及访问情况等。

  • 数据治理

很多数据仓库人员曾沦为“表哥”,天天忙着提取数据核对指标,时间长了,业务人员容易对你的数据不信任。数据治理主要是为了保障数据资产的完整性、准确性、一致性、及时性。根据指定的规范开发模型、校验模型、管理模型,为业务提供统一的、准确的指标保驾护航。

  • 数据服务

数据中台最重要的就是要对外提供统一的服务能力。数据服务需要包含以下几个能力:

  • 数据接口标准化:提供统一的数据服务在线查询视图,让开发者能够快速、简单的访问数据服务;

  • 数据开发可视化:提供服务接口的可视化配置,开发者只需要配置SQL就可以生产API,减低接口开发技术要求,便于维护和接口管理。对于业务分析人员可以让他们轻松的进行算法分析,包括模型管理、可视化编排流程,算法模型发布等功能。

  • 数据中台和数据仓库有什么不同

很多人对数据中台和数据仓库两个概念可能不是很清楚,其实最主要的是思维理念不同,数据仓库是“管理数据”,数据中台是“经营数据”,数据中台是为了提供服务而生(也有说是为了前台而生)。

参考资料:《数据中台-阿里巴巴的数据整合、价值发掘、社会赋能之道

[1] https://img-blog.csdnimg.cn/20190226204152675.jpg

[2] https://yq.aliyun.com/articles/297782

欢迎关注公众号:数据社

回复关键字,下载数据相关资料

在这里插入图片描述

  • 1
    点赞
  • 0
    评论
  • 3
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
©️2021 CSDN 皮肤主题: 酷酷鲨 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值