数据分析与数据仓库建模

第一部分

    数据分析师现在已经成为了一个热门的职位,高薪的吸引力让很多先要从事这方面工作的人趋之若鹜,各种数据培训课程的开设,但是重点都是在怎么学习算法、怎么进行数据处理,怎么保证通过数据模型可以更好对数据进行数据分析。但是对于想要从事数据分析的人来说,要知道还有其他更重要的知识。

第一、对于数据模型的正确认识

一个好的数据模型可以帮助企业预测未来的数据,这个模型是不是有效的,能不能为企业服务,数据分析师会使用自己的数据处理方法和数据分析方法去收集和分析数据,数据分析师不能无条件的依赖数据模型,起码要保证自己数据分析结果和预测的结果是一致的,对于刚刚进入数据分析行业的人员来说,比较容易有一个认识误差就是,对数据模型的依赖性强,数据分析师对于数据要有先天的敏感性。当数据不稳定的时候,或者数据发生变化的时候,要根据相关性的分析搜集数据进行推导。

第二、通过学习将数据的特征进行提取

机器学习的功能是很强大的,但是很多时候通过机器进行的数据分析不能够很好的表现出数据的特征,用机器进行大数据分析的过程中,要充分保证信息的充足,如果不能有很好的线性组合的分析,那么机器就不能通过洞察数据来提取数据的特征,对于数据分析人员来说,只要掌握其中的一种线性分析方法,理解的方法对了,那么底层的模型也就对了,因为分析的方法有多种多样,虽然方法都是不一样的,但是预测结果都是大同小异的。

第三、对于行业特征的理解

数据分析行业的特征是什么样,数据分析师只有在自己工作的过程中进行体会才会不断的得到,你所学习的书本里面会告诉你一些基本的概念,但是不能告诉你数据分析行业的体会是什么,总之都是一个慢慢体验的过程。

第二部分  如何在数据挖掘中进行建模

所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。

例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR 有自己的 TS-LDM 模型。因此,我们看到,不同的公司有自己针对某个行业的理解,因此会有不同的公司针对某个行业的模型。而对于不同的行业,同一个公司也会有不同的模型,这主要取决于不同行业的不同业务特点。

举例来说,IBM 的 TDWM 的模型总共包含了以下 9 个概念,如下图:

图 1. IBM 的 TDWM 概念模型

可能很多人要问,为什么你们的模型是 9 个概念而不是 10 个,11 个呢?你们的数据仓库模型的依据又是什么?其实这是我们在给客户介绍我们的数据模型时,经常被问到的一个问题,我希望读者在读完本文时,能够找到自己的答案。

虽然每个行业有自己的模型,但是,我们发现,不同行业的数据模型,在数据建模的方法上,却都有着共通的基本特点。

本文的主要目的之一,就是希望读者能够通过对本文的阅读,同时,结合自己对数据仓库建设的经验,在建设数据仓库的时候能够总结出一套适合自己的建模方法,能够更好的帮助客户去发挥数据仓库的作用。

本文主要的主线就是回答下面三个问题:

  • 什么是数据模型
  • 为什么需要数据模型
  • 如何建设数据模型

最后,我们在本文的结尾给大家介绍了一个具体的数据仓库建模的样例,帮助大家来了解整个数据建模的过程。

一、    什么是数据模型

数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。

数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型,一般的来说,我们数据仓库模型分为几下几个层次,如图 2 所示。

图 2. 数据仓库模型

通过上面的图形,我们能够很容易的看出在整个数据仓库得建模过程中,我们需要经历一般四个过程:

  • 业务建模,生成业务模型,主要解决业务层面的分解和程序化。
  • 领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。
  • 逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。
  • 物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值