Data Warehouse
文章平均质量分 92
浪菜叶
数据仓库实践者
展开
-
大数据环境下数据仓库的实践(二)—— Hadoop基础
Hadoop生态链已经成为如今大数据实际意义上的实现。因此在Hadoop生态下建设数据仓库需要了解一些Hadoop的基本原理。这会对我们将来为什么这么设计数据仓库提供一些解答。Hadoop最基础的两块是它的分布式文件存储(HDFS)和MapReduce计算模型(MR)。通过大数据界的"Hello World"——统计一篇文章中每个单词出现的次数,这样一个案例来跟踪一下Hadoop是怎么做的。...原创 2019-05-24 23:41:52 · 343 阅读 · 0 评论 -
大数据环境下数据仓库的实践(三)—— 数据仓库的组成部分
数据仓库从全局来看会涉及到四大块:业务源系统、ETL系统、数据应用层、数据消费层。业务源系统数据仓库中数据的来源是各个业务源系统。严格说来业务源系统不属于数据仓库的范畴。但是如果业务系统模型设计不好,对后续的数据处理将极为不利,甚至会极大的增加数据仓库建设的投入成本。现状往往是业务系统的设计人员水平参差不齐,业务系统设计千奇百怪,甚至缺乏第三范式的考量,缺乏基本的审计字段(cre...原创 2019-05-26 19:16:38 · 1035 阅读 · 0 评论 -
大数据环境下数据仓库的实践(一)—— 绪论
关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能(Business Intelligence)的核心部分。在数据仓库诞生之初,它只被设计成针对管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。然而在大数据环境的背景下,当Hadoop生态已然成为大数据现实意义上的载体,以Hive为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足部...原创 2019-05-24 06:32:16 · 301 阅读 · 0 评论 -
大数据环境下数据仓库的实践(四)—— 主题域的划分及任务和工作流的组织方式
主题域的划分由于数据仓库跨部门,所以必然存在某些数据关系密切,而某些数据相互比较独立。于是相关的一组数据往往被划成一个个主题域。主题域是为了更好地组织数据仓库。我们以一个普通的买卖为例,这里的主题域可以划分为:卖家(商家)、买家(客户)、商品、交易等。每个域下面还可以根据业务的复杂程度设置自己的子域,例如交易域下还可以设置正向交易、逆向交易(退款)。主题域和维度的迷惑主题域和维度经常容易被...原创 2019-06-07 11:10:51 · 4136 阅读 · 0 评论 -
大数据环境下数据仓库的实践(五)—— ETL之落地层同步
准确地来说,在大数据里很多时候是ELTL,但是我们仍然保留历史的称呼用ETL来描述从抽数到提供应用之间的所有数据处理步骤。ETL的第一步总是避不开从业务源系统抽取数据到落地层(Staging)。实践中,大部分时候大厂都用ODS来命名,歪果仁通常称为STG,这里只是叫法不同,作用是一样的——一次读取以缓冲对源系统数据的访问。EL工具市面上比较常用的是sqoop和dataX,也有通过binlog消...原创 2019-07-02 11:43:47 · 834 阅读 · 0 评论 -
Hive SQL中不同数据类型比较时隐性转换的坑
不同数据类型比较先来看一段SQL。表dean_test中字段a的类型是整型INT,字段b的类型是字符串/字符型STRING/VARCHAR。select * from dean_test where a = b这就是不同数据类型比较。现实中发现不少数据类型不匹配的比较能很兼容地进行隐性类型转换。但是,隐性类型转换的一个大前提应该是不能丢失精度!换句话说,显性转换和隐性转换的结果必须是一致...原创 2019-07-11 16:57:30 · 2608 阅读 · 0 评论