基于实体分析的数据仓库构建方法


基本观

每一建模都代表着一种观察世界的角度这种角度的差异很说什么好坏对错之分。

数据

数据本质是信息,数据之所有价值是因为其中包含着我们想要的信息不包含信息的数据没有价值。

信息

信息必然关于某(个实体的;因为世界是由种各样的实体构成的,不关于任何实体的信息即使存在也没有实意义。

实体

实体是指客观世界存在的事物(不管是实际的,还是抽象的)。

苹果、友谊、用户都可以指代某种实体。

实体之间的关联与关联实体

任何(几)个实体之间都可以为一个实体来待,我可以称之为关实体。

实体的标定

里的标定指的是确定、被找出来。

什么要标定:

一个可以被分析的实体,首先必须能够被标定。既然都不能确定要分析的是哪一个,自然也就从分析了。

用户可以通过用户ID来标定,所以可以进行分析。

如何标定:

普通的实体可以通过不可变属性的一部分(一般是ID)来标定;

如果不可变属性不能标定实体,那么此类实体可以分析。

联实体可以通过被关的实体的组合来标定(类似于联合主

 

整个数据仓库内对于同一个实体的标定必须是一致的

企业实体总线

数据仓库个核心目标是实现企业数据整合。

Kimball过一致性维度实现了这个目标一般称之为企业总线。

体分析建模法为了实现这个目标可以采用类似的方法,我们可以称之为企业实体总线。

实体分析几个方

里的实体包括关联实体。

面的面,实际上是对于实体的信息的分类。

实体属性和状态it is

不变属性

        不可以(能)改变的属性。

        不可变属性必须能够标定实体。

        ID可以作为不可变属性,有些则不能参考Kimball的维度处理技术。

    可变属性

        可以(能)改变的属性或状态

实体的行为记录(it did

明细表;对于实体的行为的细粒度的记录。

实体的统计group by

所有时间

        快照表;对于所有时间的聚合统计实际上就是快表。

    某一段时间

        聚合表。

于实体的阶分析

于以上基础数据,应用阶的算法结果。

 

组织层次

数据接入层

始数据的样接入

始数据一定能够体现某个实体的行为,或者某些实体之间的关联。

数据转换层

数据转换层,对于每一份数据,要做两件事:

1. 分析数据中所包含的实体(能进入一层的数据一定要包含企业一致实体)。

2. 对于实体的一致性标定。

般来说这一层的数据是明细数据而且已经实现了整合。对应到实体分析中的实体的行为记录(it did

实体基础信息,基础统计层

这一层

第一, 更新实体属性和状态it is

第二, 实现关于实体的基础统计这里面包含聚合表和快表。

 

一层已经具有价值产出的可以输出实体的状态信息及快信息。

实体分析层(标签、分类、聚类)

这一层应用层的产出,应用阶算法进行深入的分析和挖掘。

传统多维分析的支持

架构可以看成一种宽松的ER模型,二层(数据转换层、第三层(实体基础信息,基础统计层)和第四层(实体分析层)可以实现于传统多维分析的支持时可以提供更加丰富的维度;不过可能需要额外的转换来生成星型模型

器学的支持

架构为机器学习使用提供了极大的空间这是优势所在。

于非结构化数据的支持

于非构化数据同样适用于上面的处理这是另一点优势。

 

的来说我觉得实体建模法是一种松散的模型,建模难度很

种松散的特质可能更加符合大数据平台因为计算资源和存储资源都不是问题。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值