自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

转载 搭建数据仓库第09篇:物理建模

归纳起来就是主题域设计分层设计维度建模反第三范式操作,星型模型和星座模型分区设计依照逻辑模型,在数据库中进行建表、索引等。数据仓库,为了满足高性能的需求,可以增加冗余、隐藏表之间的约束等反第三范式操作。这一阶段,主要针对的是数据库、硬件、性能。范式:第一范式:数据库表的字段都是单一属性,不可再分。第二范式:数据库表中不存在非关键字段对任一...

2017-03-18 10:10:00 284

转载 Python进阶篇:Socket多线程

1. 初识Socketserver和clinet之间的交互方式2. 客户端和服务端的单次交互 1 ==================================== 2 服务端 3 4 import socket 5 6 7 host = '127.0.0.1' 8 port = 8090 9 sk=socket.so...

2016-12-25 15:07:00 225

转载 Python进阶篇:文件系统的操作

通过一个例子来熟悉文件的基本操作:创建文件,读取文件,修改文件,删除文件,重命名文件,判断文件是否存在 1 ''' 2 编写可供查询的员工信息表--学号 姓名 年龄 班级 3 1. 提供格式化查询接口 4 2. 允许用户添加或者删除员工信息 5 ''' 6 import os 7 employee_dir = 'employee...

2016-12-24 14:49:00 194

转载 搭建数据仓库第08篇:逻辑建模–5–维度建模核心之一致性维度2

目录前言维度表的类型维度表的使用场景维度表的键和属性小结前言前面从宏观的角度,讲述了7何问题。那么从微观的角度,具体的改怎样的来建设一致性维表呢? 本篇从表的类型和使用场景,以及建设过程中键的设置和属性的设置做一些总结。维度表的类型总体上讲,一般分为两类 TYP...

2016-12-13 23:42:00 279

转载 Python进阶篇:Python简单爬虫

目录前言要解决的问题设计方案代码说明小结前言前一段一直在打基础,已经学习了变量,流程控制,循环,函数这几块的知识点,就想通过写写小程序来实践一下,来加深知识点的记忆和理解。首先考虑的就是爬虫啦,一直很崇拜爬虫大师,特别想能够学习一些爬虫技术,去淘宝上爬爬数据,说不定什么时候可以使用数据进行一些分析,比如哪天自己也开了个小店...

2016-11-28 23:22:00 113

转载 搭建数据仓库第07篇:逻辑建模–4–维度建模核心之一致性维度

目录前言What一致性维度When一致性维度Where一致性维度How一致性维度Why一致性维度小结前言上一篇提到了数据仓库建设中的维度建模方法,了解了总线架构的基础是一致性维度。本篇将具体的总结一致性维度的5W问题。What一致性维度维度一直是大家所熟知的,但是前面加上了“一致性”之后便成了数据仓库特有...

2016-11-25 17:04:00 458

转载 搭建数据仓库第06篇:逻辑建模–3–维度建模核心之总线架构

目录前言维度建模星型模型小结前言维度建模是Kimball提出来的经典的数据仓库建模思想。维度建模提倡针对某一主题,通过建设维度和事实来快速建设数据仓库。与维度建模相对应的自然是Inmon的范式建模。在上篇也提到范式建模非常适合应用于中间明细层的建设,那么在DW/DM层为什么选择使用维度建模呢?这是第一个问题。维度建模的核心是总...

2016-11-21 22:50:00 343

转载 搭建数据仓库第05篇:逻辑建模–2–范式建模

目录前言使用情景如何来范式建模使用的效果小结前言上篇讲述了一些抽象的概念模型和逻辑模型设计的东西,接下来就该讲述如何来一步一步的利用Inmon和Kimball数据仓库的理论来建设数据仓库的模型,主要分几块吧,一个是范式建模,然后是维度建模(分几篇总结),最后是因地制宜,按照自己的平台来考虑如何综合的考虑Inmon和Kimb...

2016-11-17 22:06:00 588

转载 搭建数据仓库第04篇:逻辑建模–1–概要

目录前言原则内容小结前言上一篇讲述了数据仓库模型设计中的业务建模和领域概念建模,接下来就自然而然的来到了逻辑数据建模LDM(Logical Data Model)的阶段,这个阶段可以说是建模最重要的一环(也就是维度建模)。逻辑建模涉及到了整个数据仓库所有层次的模型设计,从DW到DM甚至到了OLAP。当然重点的设计还是在DW和DM层当...

2016-11-11 00:56:00 206

转载 搭建数据仓库第03篇:业务建模和概念模型设计

目录前言业务建模概念模型小结前言上一篇在数据仓库在技术架构设计和产品选择方面进行了一些总结。从这一篇将开始数据路径上的学习和思考吧。数据仓库作为一种产品,在不同的公司或者部门设计出来是不一样的。但是设计的思想是相通的。按照层次关系划分,数据路径上包括业务建模,概念模型设计,逻辑模型设计和物理模型设计。业务建模是针对公司或者部...

2016-11-11 00:55:00 546

转载 搭建数据仓库第02篇:数据仓库技术架构解决方案

上一篇开了个头,从Kimball数据仓库生命周期方法角度,列出了数据仓库搭建的核心步骤,从这一篇开始将讲述技术路径:技术架构设计和产品选择和安装。首先先以某公司的数据仓库的总体架构图的视角,了解整个数据仓库搭建起来后结构大体的样子。 最底层是数据源,一般是在线的数据库或者是文件系统。对于在线数据库,一般是操作型数据库,比如mysql,oracle等,一般是存在主库和从...

2016-11-11 00:54:00 234

转载 搭建数据仓库第01篇:数据仓库开发的生命周期

虽然一直在做数据仓库开发,但是还没有从0开始搭建过数据仓库,所以就想通过学习和思考来搭建一个还不错的数据仓库。比较经典的当属Kimball生命周期方法,它为我们在数据仓库开发过程中提供了路标的作用,生命周期方法的总体结构的核心内容有定义业务需求技术路径技术架构设计产品的选择和安装数据路径维度建模物理设计ETL设计和开发BI...

2016-11-11 00:51:00 299

转载 Python基础篇:从0开始学python

目录数据类型基本数据类型整形Int的内置方法字符串Str的内置方法列表(待补充)流程控制分支结构if...else...for循环循环控制while循环函数函数的名称与格式参数返回值作用域递归和lambda内置函数正则表达式包元字符内置属性...

2016-11-07 22:50:00 106

转载 浅析多维体系结构(总线架构), 一致性维度和一致性事实(转载)

转载于http://wenku.baidu.com/link?url=hXWQyKcbE9Y8cUqjTK4r_iCTn18UU63YRdzlCTmf2ZloY5RVFhZYRhN-7bUrgGGjwe7FkjymUUJXhQ08nbq8VgYX-bve8_Bgfjy9TpsPIhK 在Kimball的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概...

2016-11-06 19:47:00 768

转载 数据仓库之父——Bill Inmon(转载)

从此处转载 http://blog.sina.com.cn/s/blog_615f9dba0100f67p.html比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。  比尔·恩门的思想与见识在所有重量级的计算机协会、许多产业会议、...

2016-11-06 19:19:00 566

转载 数据仓库中的几种数据模型

数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型.星型模型星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。雪花模型...

2016-10-29 20:25:00 1185

转载 数据仓库为什么要分层

如何分层结合Inmon和Kimball的集线器式和总线式的数据仓库的优点,分层为ODS【-MID】-DW-DM-OLAP/OLAM/appODS层是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中,数据经过了一定的清洗,比如字段的统一,脏数据的去除等,但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。MID中间层是采用I...

2016-10-29 11:06:00 641

转载 数据仓库的两种建模方法

范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长 范式建模应用在EDW层 一个符合第三范式...

2016-10-28 21:46:00 1288

转载 数据仓库之架构发展

数据仓库有很多类型的架构方式,按照发展的历程上,主要有如下几类标志性。 独立的数据集市架构。 在最早期的数据仓库建设中,大多是以部门为单位搭建数据仓库,也就是数据集市,供整个部门使用。这样能够很快的构建好数据仓库,但是缺点是很容易产生不同部门因数据计算口径不同而导致的数据产出结果不一致。当然对于小公司来讲,构建一个公司级的数据集市也是能够满足需求的。 联邦式的数据仓库架构。不同的部门...

2016-10-28 21:20:00 152

转载 数据仓库是什么

数据库是最常听到的名词之一了,但是当提到数据仓库的时候,就会疑问,数据仓库是数据库吗? 如果不是,数据仓库是什么,用来干什么的呢? 平时遇到这个问题一般还真是不好简单明了的回答,因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢,跟数据库有什么区别呢?数据仓库是什么呢?数据仓库是面向主题的 集成的 相对稳定的 反映历史变化的数据集合,目的在于支持决策...

2016-10-28 16:38:00 260

转载 分布式计算

分布式计算是把一个需要巨大计算能力的任务分解成若干部分,然后分配给多个计算机来处理,处理完的结果汇总在一起得到最终的结果。并行和并发的区别并行计算是在时间上同时运行的计算,并发是在一段时间内处在运行和等待的计算。比如说有两台服务器(进程),并行的数量是2,并发可以是1000, 这样是指在两台服务器上可以有1000个计算在运行,不过只有2个是在同时运行,其他的都是在等待资源...

2016-10-27 22:01:00 170

转载 START法则

用途:在做项目总结以及阶段性报告等的时候,可以很好的帮自己对整个工作过程进行梳理和总结,很好的表现出自己分析问题的清晰性、条理性和逻辑性。定义:STAR法则是情境(situation)、任务(task)、行动(action)、结果(result)四项的缩写。解析:情境(situation):指事情是在什么情况下发生任务(task):你是如何明确你的任务的行动(acti...

2016-10-24 16:17:00 666

转载 Hive 默认分区

在hive里面表可以创建成分区表,但是当分区字段的值是'' 或者 null时 hive会自动将分区命名为默认分区名称。默认情况下,默认分区的名称为__HIVE_DEFAULT_PARTITION__当然默认分区名称是可配置的。配置参数是 hive.exec.default.partition.name转载于:https://www.cnblogs.com/be...

2016-09-28 15:24:00 727

转载 Hive 空指针(NPE)异常

空指针NullPointerException1 Hive之前的一些BUG[HIVE-9430] - NullPointerException on ALTER TABLE ADD PARTITION if no value given意思是当为分区表增加新的分区的时候必须指定分区的值Wrong : ALTER TABLE xxx ADD PARTITION...

2016-09-28 15:08:00 1196

转载 数据质量监控

数据质量的定义从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据。数据质量的标准1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。在数据处理的各个环节,都会涉及到及时性。我们一般考虑两个方面第一就是接口数据是否能够及时的抽取过来。第二就是展现层能否及时的展现出来。2:完整性:是指数据是否完整,描述的数...

2016-09-12 17:45:00 181

转载 主数据及其管理MDM

什么是主数据企业数据的管理包含主数据,元数据,交易数据。主数据是描述企业核心实体的基础数据,比如客户、用户、产品、员工等。它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。比如一个产品系统,它处理的基本数据就是生产数据。HR系统处理的基本数据是雇员;CRM系统是客户。一般来说核心主数据...

2016-09-11 23:41:00 514

转载 需求的收集

定义进行需求采集之前,首先要清楚“需求”是什么意思,不然像是无头苍蝇只能到处乱撞了。需求:需即需要,求即欲求,即个体客观或主观上的一种诉求。一般源自于用户理想上与现实中的差距所导致。举个栗子:有志青年小明一直是简书的忠实用户,他自己也热爱写简书,从小就有个理想能够写出让大家喜爱的文章。现在,他遇到了简书,发现他的梦想好像触手可及,那就是写出一篇好文章登上简书首页。但现实是,小...

2016-09-11 17:06:00 114

转载 Hive的严格模式

在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的不好的效果的查询,从而保护hive的集群。用户可以通过 sethive.mapred.mode=strict 来设置严格模式,改成unstrict则为飞严格模式。 在严格模式下,用户在运行如下query的时候会报错。1. 分区表的查询没有使用分区字段来限制。select * from mart_cater...

2016-08-29 11:43:00 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除