数据仓库开发笔记(二)

数据仓库开发的流程是确定  用户需求——>设计和建立数据库——>提取和加载数据 ,

  其中设计和建立数据库步骤中分为:

  • 确定事实表和维度表
  • 设计事实表
  • 设计维度表
  • 实现数据库设计

而提取和加载数据分为:

  • 校验数据
  • 迁移数据
  • 数据净化
  • 转换数据

因此当我们有建立数据仓库的需求时候,首先按照需求设计数据仓库的模型,然后根据设计好的模型对原有数据库进行ETL处理。


Pentaho根据整个流程整合需要的工具。BI Server是整个BI套件的门户,用来整合各种资源。其他的组件通过publish操作将定义好的模型信息发布到平台上,平台会自动读取这些信息更新自身的数据源等。Design Studio是支持Action Sequence图形化开发的工具,可以定义一序列操作来完成整个BI过程。Pentaho Metadata元数据管理借助于图形化对元数据建模。Kettle ETL主要对源数据库数据进行转换抽取加载等工作。Mondrian OLAP是针对多维分析提供的引擎。Weka是进行数据挖掘工具。Pentaho Reporting工具用来设计报表。Pentaho Dashboard支持仪表盘的开发。


由于我们是研究机构,主要针对开源系统进行开发和研究,因此采用了社区版的Pentaho 。
(一)部署Pentaho BI Server
Pentaho BI Server包含BI server 和Admin Console两部分。最新的稳定版本是Pentaho4.5.0。
下载地址是http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
解压后有administration-console和biserver-ce两个文件夹。其中biserver-ce自带有tomcat。
打开biserver-ce文件夹可以使用start-pentaho.bat运行BI 服务器。如果没有报错的情况下,在IE浏览器打开http://localhost:8080/pentaho 可以看到管理界面:


点开登陆界面下方的Evaluation Login,可以展开两个测试用户joe和suzy,密码都是password。

登进去之后就可以看到管理界面了。要打开左边的导航栏就点开view菜单项的browser选项。导航栏上可以看到已经配好的数据源,以及报表和多维分析的例子。


  我们可以使用系统自带的建立报表或者多维分析的功能进行测试。要使用自己的数据源进行测试,需要新建数据源。添加对应的数据源驱动包到%biserver目录%\biserver-ce-4.5.0\biserver-ce\tomcat\lib中。在菜单栏中选择File->new->data source选项将进入新建数据源导航栏。可以根据自己的数据库建立connection。

New Anaylze例子需要使用已经写好的多维分析的schame才能进行分析。系统自带了一些功能,再建立数据源的同时可以建立一个简单的schame,这远远不能满足我们的需求。因此我们需要借助于Pentaho家族中另一个成员来建立起自己数据仓库立方体即petaho schame workbench。

下一节将讲述如何使用它建立起一个数据立方体进行多维分析。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值