粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。确定粒度是数据仓库开发者需要面对的一个重要的设计问题。如果数据仓库的粒度确定合理,设计和实现中的其余方面就可以非常顺畅地进行;反之,如果粒度确定的不合理就会是其他所有方面都很难进行。粒度对于数据仓库体系结构设计人员来说,非常重要,因为粒度会影响到那些依赖于从中获取数据的数据仓库的所有环境。
粒度的主要问题是使其处于一个合适的级别,粒度的级别既不能太高也不能太低。低的粒度级别能提供详尽的数据,但要占用较多的存储空间和需要较长的查询时间。高的粒度级别能快速方便的进行查询,但不能提供过细的数据。在选择合适粒度级别的过程中,要结合业务的特点,分析的类型、依据的总的存储空间的等因素综合考虑。
数据仓库中的粒度模型
所谓粒度,指的是数据仓库中数据单元的细节程度或综合程度的级别,在数据仓库中记录数据或对数据进行综合时所使用的时间段参数(《数据仓库和数据挖掘》)。它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。
粒度可分为两种形式,第一种形式的粒度是对数据仓库中数据综合程度高低的一个度量,它及影响到数据仓库中数据量的多少,也能影响到数据仓库所能回答的讯问的种类。粒度越小,则详细程度越高,综合程度就越低,回答讯问的种类越多;相反,粒度越大,则向此程度越低,综合程度越高,回答讯问的种类也就越少。另一种形式的粒度是样本数据库粒度,与同城意义下的粒度不同。样本数据库粒度界别不是根据综合层序的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。样本数据库一般是以一定的样本率从细节档案数据或轻度综合数据中抽取的一个自己。它是根据一定需求从数据源中获得一个样本,因而也就不能回答一些细节性的问题。样本数据库的抽取可以按照数据的重要程度不同来进行。
文章整理于网络,如有错误,欢迎指出。