自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据仓库建设---数据建模

    首先我们先查看三个问题:①什么是数据模型;②为什么需要数据模型;③如何创建数据模型;一、什么是数据模型    数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。    数据仓库模型是数...

2015-05-28 11:45:25 2013

原创 数据仓库简介---数据集市

一、数据集市定义    数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。这种数据集市开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据...

2015-05-19 12:15:01 640

原创 数据仓库简介---设计模型

    数据模型是指实体、属性、实体之间的关系对业务概念和逻辑规则进行统一的定义,命名和编码,主要描述企业的信息需求和业务规则,是业务人员和开发人员沟通的语言,是数据仓库设计工作的第一步。数据模型可以划分为概念模型、逻辑模型、物理模型。一、概念模型     从定义上来说,概念模型是最高层次的数据模型,反映了数据仓库的主要主题和重要业务之间的关系。一般来说,在进行数据仓库系统设计和开发之...

2015-05-19 12:13:50 197

原创 数据仓库简介---组成

   数据仓库的组成部分有:针对数据源的分析、数据的迁移、数据的存储结构、元数据管理等。数据源分析:业务系统的源数据通常来自企业的内部信息和外部信息。内部信息指来自企业的生产数据和历史归档数据;而企业的生产数据有可能来自于不同的业务系统,如何将这些业务数据进行标准化,转换成数据仓库可以存储的数据,从而保证数据仓库中数据的一致性,这是数据源分析最重要的一步。(归档历史数据一般是指将大量的、不...

2015-05-19 12:12:57 2908

原创 数据仓库简介---概况

1、数据仓库的定义      数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。      数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据,最后转化成企业需要的战略决策信息。面向主题:根据业务的不同而进行的内容划分;集成特性:因为不同的业务源数据具有不同的数据特点,当业务源数...

2015-05-19 12:11:49 348

原创 spark shuffle详解

Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。下面这幅图清晰地描述了MapRe...

2015-05-19 11:59:14 297

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除