数据仓库与数据清洗学习

数据库导入层

DataStage 是由IBM公司开发的,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等

联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

功能与作用
从源数据层的数据抽取采用DataStage
向数据仓库中央数据库的数据加载采用teradata的数据加载工具或DS插件(data storage 数据存储层)
整个ETL流程管理采用teradata的DW Automatic(数据仓库自动化)工具
ETL系统的具体要求需要与其他系统的ETL需求综合考虑

组成部分
ETL调度与日志跟踪管理模块
ETL运行脚本模块
数据质量检查模块
出错处理与回溯模块

流程管理
数据源 → 确认、映射 → 获取(DS) → 转换(DS) → 加载 → 临时数据区 → 清洗转换和计算 → 数据更新和生成 → 数据区 → 多维数据生成/数据输出 → 接口数据、OLAP Cube

data quality rules engine(数据质量规则引擎)
数据质量检查实施框架

source data file → load → 记录级检查
load → staging area

data quality rules engine → 业务指标级检查、记录级检查 → staging area、data warehouse

staging area → transfer → data warehouse


数据服务层(中央数据库)

功能与作用
作为本系统的数据核心部分,负责存储和管理来自各种源数据系统的数据,并为访问用户提供数据服务。
数据按照逻辑数据模型分主题存放。
采用teradata的teradata关系型数据库。

组成部分
设计design:逻辑数据模型(LDM)和物理数据模型(PDM),同时也包括维护和管理数据模型各个版本的过程与方法。工具是ERWin。LDM采用teradata的FS-LDM作为设计的基础。
存储store:数据存储体系是专业数据仓库引擎teradata以及teradata5400MPP硬件平台组成

数据存储内容组成
数据仓库基础物理数据模型:用于保存各类业务的基础数据;
数据仓库汇总数据模型:用于保存各类业务的汇总数据。

数据仓库的结构采用了三级数据模型的方式,即概念模型、逻辑模型、物理模型。

概念模型
是对真实世界中问题域内的事物的描述,不是对软件设计的描述。概念的描述包括:记号、内涵、外延,其中记号和内涵(视图)是其最具实际意义的。

物理数据模型(PDM)
描述业务如何实现的物理过程

逻辑数据模型(LDM)
是着重用逻辑的过程或主要的业务来描述对象系统,描述系统要“做什么”,或者说具有哪些功能。

metadata 元数据
描述数据的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理

多数据源 → ETL服务器 → stage(数据集市) → 物理数据模型(PDM) → 多维数据、报表查询、应用系统
物理数据模型(PDM) → 应用repository或应用数据区VA,CRM,ALM → 应用系统
独立的元数据存储区


中间服务层(业务应用)
功能与作用
向用户提供包括OLAP服务、报表服务、查询服务、数据挖掘服务和中间件服务等多种服务应用。
为用户对中央数据的访问提供各种方式的服务,从而实现访问方式的多样化和信息存取的透明化。

组成部分
中间数据服务
数据访问

中间数据服务
建立从属数据集市,或OLAP Cube
满足用户对数据访问的多样化、灵活化

teradata数据库
源数据 → 临时数据区 → 数据区中间结果 → 数据集市、报表查询、多维数据 → 应用系统

数据访问

通过各种应用的定制与展现,用户对数据进行访问,包括:
报表与动态查询服务
包括hyperion performance suite的访问接口与工具,用于定制与发布报表和动态查询应用。

元数据服务
包括实现一组实现元数据应用报表和分析功能的应用接口。

数据仓库管理服务
提供数据仓库管理的信息查看、报警等服务。

其他服务
包括实现与其他应用系统及横的组件。

此外,还包括用于对外进行数据输出的服务
这些服务是由一些数据导出组件组成的,为其他部门或机构提供数据仓库的对外数据输出,例如为SAP等其他业务部门提供业务数据的输出。


访问控制层
功能与作用
主要包括WEB、认证、安全、门户四方面的服务。提供HTTPWeb服务、门户的用户登录、用户认证、门户Web应用、并提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。

组成部分
Web Sever采用WebLogic
从产品的集成性角度出发,建议在数据仓库中采用HPS自带的Portal,等银行有了相应的技术标准之后,再来讨论具体的对应策略。
经过与银行的讨论,建议采用2次登录的方式实现用户的安全认证,而这也是目前银行在其他项目中采用的登录方式。
由于数据仓库的用户来源于OA网段和生产网段,因此,需要在生产网段设置Portal服务器的同时,在OA网段设置Portal服务器的代理服务器。所有通过OA网段对数据仓库的访问,都将通过该代理服务器转到生产网段的Portal服务器上。

数据输出接口
数据仓库平台 → teradata专有接口CLI API
数据仓库平台 → ODBC\JDBC\OLEDB(业界标准的数据访问接口)
teradata数据访问技术接口,支持teradata专有接口与业界标准接口


用户安全管理及系统安全管理

用户分类
业务用户
技术用户
操作用户

用户管理
用户分组
用户级别

用户安全管理
操作系统的安全控制
数据权限控制
数据库权限控制
前端功能的用户管理和访问权限控制

用户日志及审计

数据转移安全
网络安全及协议
操作系统安全
软件工具安全

数据存储安全
MPP架构
物理安全、用户登录与数据存取
数据保护 - 磁盘阵列RAID技术、Teradata数据库级数据保护
备份与恢复

数据访问安全
数据库级访问 - 登录管理、存取权限、视图对象、存取日志

ETL架构

POC
是Proof of Concept的缩写,意思是为观点提供证据,它是一套建议的电子模型,它可用于论证团队和客户的设计,允许评估和确认概念设计方案,POC的评价可能引起规格和设计的调整。

ETL典型流程
数据源 → 确认、映射 → 源数据 → 接收 → 加载 → 转换 → 临时数据区 → 清洗和转换 →数据更新和生成 → 多维数据生成、数据区 → 多维数据库

完成的ETL加载系统由三部分组成

1.ETL Automation 运行环境
标志文件到达,则启动作业运行流程
判断作业的执行条件
运行作业的加载脚本
作业的日志管理

2.客户化的数据加载流程
实现和业务系统的数据接口
确保数据加载的同步和一致
优化的作业加载流程
合理安排加载时间窗口,满足客户的要求

3.加载脚本

数据流
ETL架构 → sa数据库 →EDW物理模型、POC验证模型 → 备份、OLAP、应用接口

控制流
ETL automatic → DataStage → sa数据库
ETL automatic → EDW\POC
ETL automatic → OLAP

DataStage集成
DataStage工具将完成由镜像数据库或文件到teradata数据库sa的数据抽取和加载过程
ETL Automation来完成整个数据仓库ETL的统一管理和流程控制

ETL环境部署
loading服务器,Transform服务器,OLAP服务器

加载完成后触发Transform任务,完成后再触发OLAP的刷新任务。

转载于:https://www.cnblogs.com/Anroam/p/3303400.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值