●数据仓库
文章平均质量分 67
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
星型模式
一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。 事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需求,基础事实表中需要记载的是客人最低粒度的消费事实。即用何种促销手段使某位客人在某个时间进行了何种形原创 2016-01-03 23:59:56 · 2449 阅读 · 0 评论 -
异常message:There is no database named cloudera_manager_metastore_canary_test_db_hive_hivemetastore
NoSuchObjectException(message:There is no database named cloudera_manager_metastore_canary_test_db_hive_hivemetastore_df61080e04cd7eb36c4336f71b5a8bc4) at org.apache.hadoop.hive.metastore.ObjectStore原创 2015-09-17 10:58:13 · 4672 阅读 · 1 评论 -
hive连接数
使用hive分析日志作业很多的时候,需要修改mysql的默认连接数修改方法 打开/etc/my.cnf文件在[mysqld] 中添加 max_connections=1000重启mysql服务 service mysqld restartmysql>show variables like '%max_connections%';查原创 2015-09-26 23:01:11 · 7945 阅读 · 0 评论 -
hive 动态分区(Dynamic Partition)异常处理
Changing Hive Dynamic Partition LimitsSymptoms:Hive enforces limits on the number of dynamic partitions that it creates. The default is 100 dynamic partitions per node, with a total (default)转载 2015-11-17 10:50:40 · 10543 阅读 · 0 评论 -
hive executeTask被interrupt处理
java.io.IOException: Failed on local exception: java.nio.channels.ClosedByInterruptException; Host Details : local host is: "hadoop008/192.168.28.77"; destination host is: "hadoop004":8020; at org.a原创 2015-12-20 11:22:56 · 2676 阅读 · 3 评论 -
hive对有特殊值null的数据倾斜处理
hive对有特殊值null的数据倾斜处理原创 2015-10-09 14:23:43 · 2742 阅读 · 0 评论 -
hive Illegal Operation state transition from CLOSED to ERROR的处理
异常堆栈如下:2015-11-24 16:49:11,495 ERROR org.apache.hive.service.cli.operation.Operation: Error running hive query:org.apache.hive.service.cli.HiveSQLException: Illegal Operation state transition from原创 2015-11-24 19:05:39 · 2840 阅读 · 0 评论 -
统计中纬度与指标的区别
在统计分析系统中,维度:是分析的角度。如流量来源(广告、搜索引擎等),上网方式等 。指标:是用数值来量化分析维度。是衡量数据的 指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以计算指标“人口”,其值为具体城市的居民总数。又例如,衡量某个渠道来源的流量所浏览的网页数(浏览量即pv),流量在网站上的平均停留时间等此外:指标是事实指标是维度的一个点原创 2015-12-28 00:01:51 · 5590 阅读 · 0 评论 -
大数据下的企业数据仓库建设
避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题减少重复开发,开发通用的中间层数据,减少很多重复的计算那么如何做到上述要点呢? 通常的办法是根据业务建立一套合理的数据分层模型数据仓库的价值:高 效 的 数 据 组 织 形 式 , 方 便 维 护 面 向 主 题 的 特 性 决 定 了 大 数 据原创 2017-09-05 22:34:18 · 5964 阅读 · 0 评论 -
大数据治理系统框架Apache Atlas实践
大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结Apache Atlas简介•面对海量且持续增加的各式各样的数据对象,原创 2017-09-21 14:54:12 · 19957 阅读 · 6 评论 -
最新Hive函数
LanguageManual UDF原创 2017-11-23 18:35:55 · 1641 阅读 · 0 评论 -
Out of memory due to hash maps used in map-side aggregation解决办法
在运行一个group by的sql时,抛出以下错误信息:Task with the most failures(4): -----Task ID: task_201411191723_723592_m_000004URL: http://DDS0204.dratio:50030/taskdetails.jsp?jobid=job_201411191723_723原创 2015-01-28 16:13:57 · 1704 阅读 · 0 评论 -
How to configue session timeout in Hive
This article explains how to configure the following settings in Hive:hive.server2.session.check.intervalhive.server2.idle.operation.timeouthive.server2.idle.session.timeout1). hive.se原创 2016-01-12 23:27:31 · 3206 阅读 · 1 评论 -
支付宝数据建模介绍
支付宝数据建模介绍转载 2015-12-21 00:42:32 · 2027 阅读 · 0 评论 -
数据集市
1. 什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面转载 2015-12-21 01:20:43 · 3534 阅读 · 0 评论 -
数据仓库建模:定义事实表的粒度
数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下:1.客户的零售单据上的每个条目。2.保险单上的每个交易。定义好事实表的粒度有很大的用处。第一个用处就转载 2015-12-17 08:19:38 · 4247 阅读 · 0 评论 -
数据仓库建设步骤
数据仓库建设步骤Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏1.系统分析,确定主题确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是转载 2015-12-17 08:21:22 · 1557 阅读 · 0 评论 -
多维数据模型
一、概述 多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。二、星型模式(star schema) 星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:转载 2015-12-15 08:10:29 · 2286 阅读 · 0 评论 -
构建企业级数据仓库五步法
数据仓库建模与ETL实践技巧Posted on 2008-08-01 10:07 xuzhengzhu 阅读(295) 在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp)其中,数据仓库(DW)起到了数据大集中的作用。通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小转载 2015-12-17 08:24:04 · 2245 阅读 · 0 评论 -
分布式数据仓库设计
做大做强事实表,做小做弱维表;分布式模式-维度建模新原则 (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值; (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。原创 2015-12-15 08:11:51 · 1436 阅读 · 0 评论 -
数据仓库3级范式(3NF)基础
一、引言 最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。二、3NF(1)1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1原创 2015-11-23 17:48:44 · 4536 阅读 · 0 评论 -
美团数据仓库的演进
数据仓库转载 2015-10-30 17:14:50 · 3022 阅读 · 1 评论 -
[解决] HiveServer2中使用jdbc访问hbase时导致ZooKeeper连接持续增加的解决
最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成final了。但是zookeeper连接依然会涨。后来想想,我们要访问的表是hive去映射的hbase,hivese原创 2016-02-23 15:55:26 · 7145 阅读 · 1 评论 -
Hive实现分组排序或者分页
使用到的语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 表示根据COL1分组,在分组内部根据 COL2排序,而此函数...转载 2018-03-27 23:24:42 · 4597 阅读 · 0 评论