用户操作
[即时聊天] [发私信] [加为好友]
JomunkID:JoMuncher
8383次访问,排名13016,好友0人,关注者3人。
The world needs only men's stronger heart!!
JoMuncher的文章
原创 11 篇
翻译 0 篇
转载 9 篇
评论 19 篇
最近评论
eGarment:拖动列的时候也会乱掉
eGarment:拖动列的时候也会乱掉
eGarment:拖动列的时候也会乱掉
c120000465:受教了!认真学习中。。。。。。
c120000465:受教了!认真学习中。。。。。。
文章分类
收藏
    相册
    By Accident
    My Life Style
    NBA2006
    有朋自远方来
    足朋够友
    奎子
    小鑫鑫的Blog
    帅子
    志江的小窝(RSS)
    星星空间
    王鑫
    老郭
    蔡蔡子
    西楚之魂
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    转载 什么是数据仓库收藏

    新一篇: 双向循环链表的实现(粗糙版) | 旧一篇: vs2005 DataGridView 多维合并标题 2点修改

    数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之父”WilliamH.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。

    数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。

    基于数据仓库的决策支持系统(DSS)由三个部件组成:数据仓库技术(Data warehousing),联机分析处理技术(OLAP,On—Line Analytical Pro—cessing),数据挖掘技术(Data Mining)。

    联机分析处理(OLAP,On—Analytical Pro—cessing)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP侧重于数据仓库的数据分析,并将其转换成辅助决策信息。OLA P的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。问此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。

    OLAP的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支持的支柱,也是OLAP的核心。

    数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

     

    数据仓库概念的提出者、美国著名信息工程专家 William Inmon 博士在90年代初提出了数据仓库概念的一个表述。他认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。”

    所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。

    所谓集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

    所谓随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

    而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。

    依据上面的定义,有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。因此数据仓库是一个动态的概念,应该称为数据仓库工程(Data Warehousing)。

    数据仓库的组成

    数据抽数据净化数据载入

    信息发布系统

    操作型数据和外界数据

    数据集市

    报表,查询,EIS工具

    OLAP工具

    数据挖掘工具

    操纵平台

    元数据

    管理平台
     为什么要建立数据仓库:

     

    商业上:利用所有可能的数据快速而正确的做出决策;用户是业务领域的专家,而不是计算机专业人员;企业数据每18个月翻一番,需要有一种有效的访问这些数据的方法;在商业智能和有利用效企业数据方面,竞争的加剧。

    技术上:计算机的计算能力越来越便宜(MIPS价格的下跌);存储介质价格的下跌;

    网络带宽的增长,网络的传输能力越来越便宜;整个企业的计算机环境越来越复杂,各个时代各个不同厂家的应用系统同时存在;新的应用要访问其他应用的数据。

    实施数据仓库应注意的问题:

     

    商业上(考虑投资回报率)

    实施的步骤:从上到下还是从下到上

    人力资源的问题:培训还是雇佣

    设计上(thinkbig,butstartsmall)

    可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。

    数据仓库相对于OLTP来说,更加是业务驱动(business-driven)的而不是技术驱动的(IT-driven),需要和最终用户不断的交流,建立的过程可能永远不会结束。

    要点:

    1)数据仓库中应该包含细节数据(清理过的)。

    2)用户能看到的任何数据都应该在元数据中有对应的描述。

    3)考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器总如何分配,按主题、地理位置、还是时间?这些策略对整个数据仓库的性能影响很大。

    4)当选用数据仓库设计工具时应注意:工具支持的元数据格式是否与数据仓库支持的元数据格式相容?不同工具的元数据格式之间能否自由转换?

    5)最终用户对数据仓库的使用方式对数据仓库的性能影响很大,在设计数据仓库模型时为了提高性能应将用户对数据仓库的使用方式考虑在内。

    设计数据仓库的九个步骤:

    1)选择合适的主题(所要解决问题的领域)

    2)明确定义fact表

    3)确定和确认维

    4)choosingthefacts

    5)计算并存储fact表中的衍生数据段

    6)roundingoutthedimensiontables

    7)choosingthedurationofthedatabase

    8)theneedtotrackslowlychangingdimensions

    9)确定查询优先级和查询模式。

     

    发表于 @ 2008年03月05日 13:51:00|评论(loading...)|编辑

    新一篇: 双向循环链表的实现(粗糙版) | 旧一篇: vs2005 DataGridView 多维合并标题 2点修改

    评论:没有评论。

    发表评论  


    当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
    Csdn Blog version 3.1a
    Copyright © Jomunk