【数据仓库项目】
【数据仓库项目】
北京小辉
余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据、云数据、用户画像、推荐算法。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。
展开
-
sqoop--离线数据接入平台项目详解
目录1、需求2、架构和步鄹3、细化步鄹讲解1、需求近期公司需要抽取mysql和SqlServer数据到hive中,且将数据处理过程成需要进行加密脱敏。2、架构和步鄹3、细化步鄹讲解1、源数据到stage功能描述:抽取关系型数据库中数据(全量或增量)启动方式:extract -n stageDataBaseName -s stageTableName ...原创 2019-10-18 12:14:23 · 843 阅读 · 0 评论 -
Sqoop每天全量抽取SqlServer的数据存储到hive中
需求:1、通过Sqoop每天全量抽取SqlServer的数据,按照存储到hive中,通过hive的partition进行分割#!/usr/bin/env bash################################################################################# 功能描述:抽取关系型数据库中数据(全量)# 输入:源表名称、目...原创 2019-09-29 11:12:46 · 1588 阅读 · 2 评论 -
数据仓库中拉链表的实现
在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实,不仅浪费了存储空间,有时可能业务统计也有点麻烦,这时,拉链表的作用就提现出来了,既节省空间,又满足了需求。一般在数仓中通过增加begi...原创 2019-04-17 18:23:48 · 16413 阅读 · 1 评论 -
数据仓库中的增量表,全量表,快照表,拉链表
目录1、增量表2、全量表3、快照表4、拉链表1、增量表增量表:新增数据,增量数据是上次导出之后的新数据。(1)记录每次增加的量,而不是总量;(2)增量表,只报变化量,无变化不用报(3)每天一个分区2、全量表每天的所有的最新状态的数据。(1)全量表,有无变化,都要报(2)每次上报的数据都是所有的数据(变化的 + 没有变化的)(3)只有一个分区3、快照表按日分区...原创 2019-04-17 14:25:43 · 20517 阅读 · 2 评论