如何看待数据的生命周期?

概述

通常认为数据进入数据库之后就是静态的,以后会查询它们。但是实际上,数据更像是组装线上的产品,会从一种环境转移到另一种环境,并在沿途进行各种转换。
data life

OLTP(联机事务处理)

数据的源头是来自客户活动,客户通过一个软件进行各种操作从而产生一系列相关的数据,我将这些数据理解为业务数据,而这些数据就保存在业务数据库中。这种数据库是不断的与客户进行交互的,一般称之为联机事务处理。OLTP对数据的实时性要求很高,客户发送一个请求,数据库需要在很短的时间产生响应,计算出结果,展示在客户面前。在规范化的环境中,每个数据表用于表示一个实体,并将数据冗余保持在最低限度。当要修改一个实体时,只要在一个地方修改,使修改操作得以优化,同时也减少了发生错误的机会。

ETL(提取、转换、加载)

然而业务性数据不仅仅时用来进行交互,这样会浪费数据的价值,我们需要将这些数据通过一定的方式进行整合,然后加以分析、挖掘,获取更大的商业价值。这一过程就简称为ETL。关于ETL,实现的方法多种多样,通常的手段有:SQL编程、Python编程、成熟的ETL工具。一般大型的项目都需要使用到工具,关于SQL SERVER,可以使用微软的SSIS服务和开源的Kettle。ETL有几个需要关注的点:

  1. 增量还是全量;
  2. 日志应该怎么写以及如何进行监控;
  3. 元数据应该怎么管理。

数据仓库

数据仓库是专门针对数据检索和生成报表而设计的环境。当这样的环境服务于整个企业时,就称之为数据仓库;而只服务于企业的一部分时(比如说部门),就称之为数据集市。主要为了支持数据检索,而对数据仓库中的数据模型进行设计和优化。模型有意保持了一定的冗余,允许通过更少的表和更简单的关系,最终得到比OLTP环境更加简单和有效的查询。这部分还会设计到数据模型相关的知识,常用的有3NF建模和维度建模。
Mark一个好的建模工具Power Designer。

数据集市

数据仓库的一个子集,服务于部门。在数据仓库和数据集市之间搭建ETL,适合使用维度建模。

OLAP(联机分析处理)

OLAP系统支持对聚合后的数据进行动态的在线分析。由于性能的要求,需要提前对数据进行聚合。
mark ssas

应用

对于数据仓库的应用主要包括:报表开发(数据可视化)、数据挖掘。数据可视化一般使用Tableau。数据挖掘比较困难,涉及到各种算法,对数理理论知识,编程都有一定要求。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值