自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wer0735的博客

专注于大数据数据仓库

  • 博客(5)
  • 问答 (1)
  • 收藏
  • 关注

原创 理论篇~第三章 数据模型设计

常见数据模型介绍  1 ER模型    数据仓库之父Bill Inmon提出的建模方法,是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务。其具有以下几个特点:   需要全面了解企业业务和数据   实施周期非常长   对建模型人员要求非常高      采用ER模型建设数据仓库的出发点是基于整合数据,将各个系统的数据

2017-09-24 10:07:02 10116 1

原创 理论篇~第二章 数据仓库的命名规范

大家可能对命名规范重视不太够。在多年的工作中,碰到太多由于命名不规范,导致代码混乱和数据管理困难等问题。这个问题在元数据管理时,体现得特别重要。当然,每个公司的命名规范不一样,只要做到易理解、易管理就行。接下来,说说自己的理解。1 表    表的命名首先按数据分层和主题来划分来定规范。   1.1 ODS层(操作数据层)         ODS层作为最底层,应该

2017-09-23 23:30:02 6001

原创 理论篇~第一章 大数据数据仓库架构

接下来,我们以阿里巴巴大数据架构图来介绍。    大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):    1 数据采集层         数据采集的对象主要是传统数据库数据和日志数据。一般公司采用sqoop开源工具采集传统数据库数据,大公司会开发专门工具。例如,阿里的Dat

2017-09-23 22:30:35 8372 1

原创 大数据数据仓库-简介

人类正从IT时代走向DT时代,数据变得越来越多,其重要性不言而喻,管理大量数据的数据仓库也显得更重要。接下的日子里,本人会根据自己所学的知识和实战经验,编写多年心得与大家一起学习探头。

2017-09-23 21:50:56 1708

转载 Hive 数据倾斜解决方案(调优)

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2017-09-01 15:35:30 288

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除