数据仓库与数据挖掘的个人总结

         来公司的第一天收到要熟悉数据仓库与数据挖掘的任务,任务内容如下:

         1.阅读有关数据仓库、数据挖掘、OLAP在线联机分析的相关文档,掌握和了解相关基础知识和概念

         2.了解常见的数据仓库及OLAP解决数据决策分析有效性的解决方案,以及主要的实施过程

         3.重点了解微软的解决方案

         4.在电脑上安装微软sqlserver2008及visual studio2008及相关环境,简单熟悉和掌握开发过程

         5.了解数据仓库的设计原则和方法,并尝试用你之前做过的一个系统(建议20个业务表的小系统比较合适),在上述环境进行数据仓库设计

         6.在5的结果下,进行ETL过程设计,并执行ETL过程

         7.在5的结果下,进行维度、测度、KPI的相关设计,生成数据立方体

         8.在7的结果下,进行报表、交叉表、仪表盘、页面的设计

         9.了解熟悉mdx语法和dmx语法


         整理与解答:

        问题1:

         1.DW(Data Warehouse):数据仓库

           ①什么是数据仓库?what?

               数据仓库是一个面向主题的(用于为特定主题的功能提供信息)、集成的(可从多个数据库系统中集成信息)、相对稳定的()、反应历史变化的(按周期更新数据)数据集合,用于支持管理决策。它有一下两个特点:1>首先数据仓库是用于支持决策的,帮助人对数据进行分析处理,这一点它有别于操作型数据库。2>数据仓库是多个异构数据源的有效集成,集成够按照主题进行重组,为了方便分析,它包含历史数据,而且存放在数据仓库中的数据一般不再修改。(企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。)

           ②为什么要建立数据仓库?why?

              因为传统的事物型数据库不能满足信息分析的需求,这原于它们之间处理性能的不同:

            1>因为事务型数据库中的数据是动态变化的,在分析一些数据信息时,我们希望事务型数据库是空闲的,然而它却表示数据操作频繁,根本停不下来,所以系统处理新数据的有效性被大打折扣。(事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。)

            2>而数据仓库支持决策型数据处理解决了这一问题。具体处理方式在之后的问题中解答。

        2.DM(Data Mining):数据挖掘

          ①什么是数据挖掘?what?

            数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。

          ②如何进行数据挖掘?how?

            略。

       问题2:

         1.数据仓库解决办法:

            将决策支持型数据处理从事务型数据处理中分离出来,数据按照一定的周期(通常为每晚或每周末)从事务型数据库导入决策支持型数据库——数据仓库。数据仓库是按回答企业某方面问题来分“主题”组织数据的,这是最有效的数据组织方式。

         2.OLAP(On Line Analytical Processing):联机分析处理  解决方法:

            多维数据贮存:将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。这种多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它允许用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。

       问题3:

         为查阅到相关资料。

       问题4:

         sqlserver2008及visual studio2008已成功安装,并熟悉了基本的功能操作。

       问题5:

         数据仓库设计的原则:http://wenku.baidu.com/link?url=Yv0bvHgbUncUXfHnphC8B5_0GSrwK7tnrkP92MbAJPap_bqwX-p2_6X9W9NXfdYIXBN9Nw06YvKlGdAMQ5DZ0_hf2uvLANu716KOSk_WwRK

         数据仓库设计的方法:http://tech.it168.com/d/2008-01-04/200801041342948.shtml

         数据仓库设计尝试中:.......

       问题6:

         ETL过程设计:http://wenku.baidu.com/link?url=g9y-IhyflyfT1OR-8uOThSbIAcWBDKfqMRX2tvxhQCiiFVTszAggsmQS92QiytS0mnSGnS8YxK5IfHnPk9N22DVTuyTsSHGsETYJLldJ6bG

         数据仓库ETL过程尝试中:......

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大 数 据 分 析 BIG DATA ANALYSIS 汇报人:XXXX 时间:XX年XX月 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第1页。 工具介绍 TOOL INTRODUCTION 分析步骤 ANALYSIS STEPS 基本内容 BASIC CONTENT 业务成果 BUSINESS RESULTS 目录 CONTENTS 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第2页。 业务成果 BUSINESS RESULTS 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第3页。 业务成果 企业机构面临着越来越大的竞争压力,它们不仅需要获取客户,还要了解客户的需求,以便提升客户体验,并发展长久的关系 积极主动&预测需求 客户通过分享数据,降低数据使用的隐私级别,期望企业能够了解他们,形成相应的互动,并在所有的接触点提供无缝体验。 客户分享数据 企业需要识别客户的多个标识符(例如手机、电子邮件和地址),并将其整合为一个单独的客户ID 识别多个标识符 由于客户越来越多地使用多个渠道与企业互动,为此需要整合传统数据源和数字数据源来理解客户的行为。此外,企业也需要提供情境相关的实时体验,这也是客户的期望 提供实时体验 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第4页。 安全和欺诈分析旨在保护所有物理、财务和知识资产免受内部和外部威胁的滥用。高效的数据和分析能力将确保最佳的欺诈预防水平,提升整个企业机构的安全:威慑需要建立有效的机制,以便企业快速检测并预测欺诈活动,同时识别和跟踪肇事者 缓冲风险&减少欺诈 对整个企业的数据进行集成和关联可以提供统一的跨不同业务线、产品和交易的欺诈视图。多类型分析和数据基础可以提供更准确的欺诈趋势分析和预测,并预测未来的潜在操作方式,确定欺诈审计和调查中的漏洞 提供欺诈视图 将统计、网络、路径和大数据方法论用于带来警报的预测性欺诈倾向模型,将确保在被实时威胁检测流程触发后能够及时做出响应,并自动发出警报和做出相应的处理。数据管理以及高效和透明的欺诈事件报告机制将有助于改进欺诈风险管理流程 及时做出响应 产品是任何企业机构生存的基石,也通常是企业投入最大的领域。产品管理团队的作用是辨识推动创新、新功能和服务战略路线图的发展趋势 提供相关产品 业务成果 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第5页。 业务成果 通过对个人公布的想法和观点的第三方数据源进行有效整理,再进行相应分析,可以帮助企业在需求发生变化或开发新技术的时候保持竞争力,并能够加快对市场需求的预测,在需求产生之前提供相应产品 有效整理分析 公司在处理结构化数据方面仍然有些吃力,并需要快速应对通过数字技术进行客户交互所带来的不稳定性。要做出实时回应,并让客户感觉受到重视,只能通过先进的分析技术实现 个性化&服务 运营管理不善可能面临损害客户体验,最终降低品牌忠诚度的重大风险。通过在流程设计和控制,在商品或服务生产中的业务运营优化中应用分析技术,可以提升满足客户期望的有效性和效率,并实现卓越的运营 优化&改善客户体验 通过部署先进的分析技术,可提高现场运营活动的生产力和效率,并能够根据业务和客户需求优化组织人力安排。数据和分析的最佳化使用可以带来端对端的视图,并能够对关键运营指标进行衡量,从而确保持续不断的改进 部署分析技术 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第6页。 分析步骤 ANALYSIS STEPS 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第7页。 分析步骤 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度 数据挖掘算法 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断 预测性分析能力 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果 可视化分析 大数据分析应用知识培训总结数据挖掘全文共15页,当前为第8页。 分析步骤 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从"文档"中智能提取信息 语义引擎 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果 数据质量和数据管理 数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统
随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。<br><br>数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。 <br><br>  ⑴数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 <br><br>  ⑵存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 <br><br>  ⑶数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。 <br><br>  提到数据仓库,人们难免会想到仅有一字之差的数据库,那么,数据仓库和我们经常提到的数据库有哪些区别呢?为什么要使用数据仓库呢?<br><br>从数据库到数据仓库 <br>  市场需求是技术发展的源动力。在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。记得在80年代末,北京工商银行率先推出了全市个人储蓄通存通兑业务,广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。这便是通过联机事务处理系统而获得市场优势的案例。其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。 <br><br>  然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密集地区增设自助网点、推出有针对性(如:某类职业圈、某年龄段)的储蓄服务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” <br><br>  事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是,有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息。 <br><br>  那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初, 人们固守封闭式系统是出于对事务处理的偏爱, 人们选择关系数据库是为了方便地获得信息。我们只要翻开 C.J. Date博士的经典之作《An Introduction to Database Systems》便会发现:今天数据仓库所要提供的正是当年关系数据库要所倡导的。然而,“成也萧何,败也萧何”,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又显得“老革命遇到新问题”——今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。 <br><br>  以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。 <br><br>  从厂商的角度看,经过长期发展,联机事务处理系统的市场至90年代中期出现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为20世纪末到21世纪初数据库市场的一个新的增长点。因此,数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作。对于广大用户来说,只有从自身应用需求出发,破除技术和概念的神秘性,奉行“拿来主义”,避虚就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。 <br><br>  总之,数据仓库并非是一个仅仅存储数据的简单信息库,因为这实际上与传统数据库没有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。<br>
《大数据时代》读后感 学习总结 关于作者 维克托·迈尔-舍恩伯格(Viktor Mayer- Schönberger),他是十余年潜心研究数据科学的技术权威,他是最早洞见大数据时代发 展趋势的数据科学家之一。 关于大数据 大数据是什么 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具, 在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯 。大数据的4V特点:Volume(大量)、Velocity((高)速率)、Variety(多样性)、 Veracity(真实)。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用 等领域。 大数据的来源 所谓的"Big Data"是由IBM和Gartner分析师提出的概念,我们比较时髦的称其为大数据。 大数据现状、应用 通过分析和优化企业数据实现一种对未来的企业运营的精准的预测能力。采用一系列 的技术,从技术中获得洞察力,也就是BI或者分析;另外一个是分析路径,寻找关键绩 效指标,从仪表盘这样的工具进行数据分析,实现预测性工作。 大数据未来 Fayyad曾被视为数据挖掘领域的No.1,他用下图向我们解释了为什么说分析是大数据 未来的发展方向。 关于大数据时代 思维变革 更多:不是随机样本,而是全体数据;"样本=总体"。 更杂:不是精确性,而是混杂性;允许不精确,最大化利用全体数据。 更好:不是因果关系,而是相关关系;"是什么",而不是"为什么"。 商业变革 数据化:一切皆可"量化";关注信息本身。 价值:发现、利用数据的价值。 角色定位:大数据掌控、大数据技术、大数据思维的三足鼎立。 管理变革 责任:数据来源有效性、数据存储安全性、数据使用合法性。 自由:反对数据垄断大亨。 读后感 大数据时代,是名符其实的"信息社会" 经历了口口相传、纸媒传播,到现在的网络技术,我们可以获得比以前更多的信息并 进行分析,可以从更多的维度诠释世界。 通讯技术的发展,促进了个人/组织在信息获取上的平等发展,数据不再是限制我们 努力的因素了。数据的的爆炸式产生,促使我们必须从海量的信息中做出选择、掌握数 据挖掘技术和筛选工具。 大数据技术支持预测工作 大数据的4V特点,及对相对关系的发掘,改变了传统的基于少量样本的预测思维。思 维的转变,将会在各行各业中爆发出更多的预测技术和工具,进而支撑预测工作的大力 发展。 大数据技术越完善,我们越能更快更全面的获得更多的有效数据,预测则越准确。 知识管理迫在眉睫 大数据的未来是数据分析,而分析的目的是转化为经验、规律、总结……,它们的集合 就是知识。知识是个人/组织成长的直接推动因素。 知识管理要遵循积累原则(知识积累是实施知识的管理基础)、共享原则(一个组织 内部的信息和知识要尽可能公开,使每一个员工都能接触和使用公司的知识和信息)、 交流原则(知识管理的核心就是要在公司内部建立一个有利于交流的组织结构和文化气 氛,使员工之间的交流毫无障碍)。这三原则不正是大数据技术的组织基础吗? 在工作中的而应用 关注运作工作向数据管理方向的转化 在仓储工作中,为物品对象(仓库、货物、设备、员工等)、流程对象(如作业、异 常处理、管理等)建立属性列表,关注数据积累。 同时,关注仓储数据与运输、客服、园区等各方面环境数据的对应。 重视数据挖掘,提高数据分析能力 根据运作问题和目标,通过数据挖掘和分析,寻找有效的数据指标。通过对关键指标 的趋势预测,发现潜在风险、发掘改善途径。 推动数据转化,促进建立知识管理系统 在实际工作中,重视对裸数据、经验、执行文件的管理,引导各项目的知识转化。建 立从数据积累、知识转化(数据到知识、隐性知识到显性知识、个体知识到组织知识等 )、知识共享的知识管理体系,形成仓储管理知识体系及其良性循环。 (正文结束) ----------------------- 大数据学习总结全文共3页,当前为第1页。 大数据学习总结全文共3页,当前为第2页。 大数据学习总结全文共3页,当前为第3页。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值