《数据仓库与数据挖掘教程》ch01绪论 章节整理

数据挖掘技术 专栏收录该内容
3 篇文章 0 订阅

数据仓库概述

从传统数据库到数据仓库

计算机数据处理有两种主要方式

  • 事务型处理
  • 分析型处理
传统数据库与事务处理
  • 传统数据库是长期存储在计算机内的、有组织的、可共享的数据集合
  • 有严格的数学理论支持,并在商业领域得到普及应用。
  • 联机事务处理(On-Line Transaction Processing)系统,简称OLTP系统。
  • 数据存储在传统数据库中,成为OLTP数据库
  • 处理特点:实时响应,数据安全性和完整性
传统决策支持和分析处理
  • 数据的分析:对当前和大量历史数据的统计和分析,并从中提取管理决策所需重要信息的数据处理方法
  • 决策支持系统(Decision Support System,DSS):对数据进行分析处理任务的计算机系统
  • 决策支持:将决策支持系统分析所得到数据信息,提供给企事业董事会或主管领导决策参考的过程
  • 分析型处理系统:决策支持系统的别名,通常需要对大量历史数据进行长时间的分析处理
  • 处理特点:用户对分析处理的时间长度不在意,而对数据分析的深度和广度,以及分析结果的使用价值非常重视
  • 早期分析处理系统开发:在事务处理系统中,直接增加一些统计分析软件或决策支持程序
传统分析处理的问题

① 分析处理的系统响应问题
事务处理的实时响应修改需求(排它锁)与决策分析需要长时间遍历数据库中大部分甚至全部数据(共享锁)有很大冲突
② 分析处理的数据需求问题

  • 外部数据需求问题
    甚至包括竞争对手的相关数据,但传统数据库中只存储了部门内部的事务处理数据
  • 系统平台差异问题
    决策分析的数据通常来自多个处理系统,必须解决不同数据处理系统的差异性问题
  • 数据不一致性问题
    多个处理系统相同属性的取值类型或长度不一致
  • 非结构化数据问题
    决策分析处理的数据集成过程中涉及行业统计报告、咨询公司的市场调查分析数据,其格式可能是Excel,Word或者Web页面等
  • 历史数据需求问题
    决策分析处理需要较长时期的历史数据,而传统数据库一般只保留当前或近期的数据
  • 数据动态更新问题
    决策分析处理需要不断的增加最近几个月,但传统的分析处理系统在对数据进行一次集成以后,往往就与原来的数据源断绝了联系

③ 分析处理的多样性问题
决策分析人员希望能够利用各种工具对数据进行多种方式的处理,并希望数据处理的结果能以商业智能的方式表达出来,不仅要便于理解,而且能有力地支持决策
④ 操作型数据与分析型数据的区别
在这里插入图片描述
⑤ 操作型系统与分析型系统的区别
在这里插入图片描述

  • SDLC(Systems Development Life Cycle)称为系统开发生命周期,即操作型系统遵循需求调查 --> 需求分析 --> 设计&编程 --> 系统测试 --> 系统集成 --> 系统实施
  • Inmon认为,分析型系统开发周期CLDS(Reverse of SDLC)是SDLC逆过程,即DW实施 --> 数据集成 --> 偏差测试 --> 针对数据编程 --> 设计DSS系统 --> 结果分析 --> 理解需求的螺旋式开发过程
  • 但我们从实际应用中发现,还是要进行一定的前期需求调查和系统设计,才能开始DW实施
事务处理与分析处理系统的分离

在这里插入图片描述

数据仓库的定义

定义1:数据仓库(Data Warehouse,DW)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的,支持管理决策(Decision Making Support)的数据集合

定义2:数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的支持管理决策数据集合

因此可以说,数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题集成不可修改随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理

数据仓库的4个特征

数据仓库的数据是面向主题的

定义3:主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述

定义4: 主题是一个在较高管理层次上描述决策分析问题的综合数据集合

  • 从信息管理的角度看,主题是在一个较高管理层次上对数据库系统中数据,按照具体的管理要求重新综合、归类的分析对象
  • 从数据组织的角度看,主题就是一个数据集合,这些数据对分析对象进行了比较完整、一致的描述,不仅描述了数据自身,还描述了数据之间的关系
数据仓库的数据是集成的
  • 数据集成:根据决策分析的主题需要,把多个异种数据源中的数据收集起来形成一个统一并且一致的数据集合的过程
  • 数据ETL(Extract-Transform-Load,抽取-转换-加载):对数据源数据进行抽取、清理、转换和加载到DW的过程
  • ETL的目的:确保数据仓库数据在属性名称、属性值度量等方面完全一致性
  • ETL主要有两个任务:
    • 消除数据源中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等
    • 对数据进行综合计算
数据仓库的数据是不可修改的

数据仓库的数据都是从事务处理数据源抽取过来的历史数据,因而是不可以修改的,且基于数据仓库的决策分析只有读操作而没有修改操作

数据仓库的数据是随时间变化的

主要体现在以下3方面:

  • 数据仓库随时间变化不断增加新的数据内容
  • 数据仓库随时间变化不断删去旧的数据内容
  • 数据仓库中包含有大量的综合数据,且随着时间要求的变化而不断变化

数据仓库系统

定义5:数据仓库管理系统(Data Warehouse Manage-ment System,简称DWMS)是位于用户与操作系统(OS)之间的一层数据分析管理软件,负责对数据仓库数据进行统一更新、管理和使用控制,为用户和应用程序提供访问数据仓库的方法或接口软件的集合

定义6:数据仓库系统(Data Warehouse System,简称DWS)是计算机系统、DW、DWMS、应用软件、数据库管理员和用户的集合

因此,数据仓库系统一般由硬件软件(包括开发工具)、数据仓库数据仓库管理员等构成

数据仓库系统体系结构

在这里插入图片描述

数据来源

数据仓库系统的数据源,包括内部的OLTP数据库、OA数据和外部的市场信息、竞争对手信息,以及政府统计数据和其它有关文档

数据获取

从数据源中抽取数据,集成数据,预处理后转换成数据仓库对应的数据格式,并将其加载到数据仓库之中

数据管理

对数据仓库数据,元数据和数据集市的存储管理,包括数据存储、数据的安全性、一致性和并发控制管理、以及数据的维护、备份和恢复等管理功能,由DWMS负责

  • (企业级)数据仓库:包含从企业所有可能的数据源抽取得到的明细数据汇总数据
  • 数据集市(Data Mart,DMt)是企业级数据仓库的一个子集,通常称之为部门级数据仓库
  • 元数据(Meta Data):“关于数据的数据”,即描述其它数据的基础数据。按其用途可将分为两种类型
    • 技术元数据(Technical Metadata)是关于数据源、数据转换和数据仓库的描述,如数据对象和数据结构的定义、数据清理和数据更新的规则、元数据到目的数据的映射、用户访问权限等。供数据仓库设计和管理人员使用,又称为管理元数据(Administrative Metadata)
    • 商业元数据(Business Metadata):用商业术语描述数据仓库中的数据,包括对业务主题、数据来源和数据访问规则,各种分析方法及报表展示形式的描述,以便使数据仓库管理人员和用户更好地理解和使用数据仓库。也被称为用户元数据(User Metadata)
  • 元数据的作用
    • 为决策支持系统分析员和高层决策人员服务提供便利。如广义索引(元素据)存放的有关决策汇总数据项
    • 解决操作型环境和数据仓库的复杂映射关系。如数据源的项名、属性及其在数据仓库中的转换
  • 元数据的使用
    • 元数据在数据仓库开发期间的使用。元数据主要描述DW目录表的每个运作模式,数据的转化、净化、转移、概括和综合的规则与处理规则
    • 元数据在数据源抽取中使用。利用元数据确定将数据源的哪些资源加载到DW中;跟踪历史数据结构变化过程;描述属性到属性的映射、属性转换等
    • 元数据在数据清理与综合中的使用。数据清理与综合负责净化资源中的数据、增加资源戳和时间戳,将数据转换为符合数据仓库的数据格式,计算综合数据的值
数据应用
  • 通过数据分析工具、数据挖掘工具和其它应用程序来使用DW中的数据
  • 数据仓库技术本身并不提供对数据仓库进行分析的技术和工具,用户一般可以根据需要,自行开发或委托软件公司开发合适的决策分析工具
数据用户

企业中高层管理者和决策分析人员。正是因为有了使用它的用户,数据仓库才真正体现出它的价值

数据仓库数据的粒度与组织

数据的粒度
  • 数据仓库的数据单元中所保存数据的综合程度数据的综合程度越高,其粒度也就越粗。反之,数据的综合程度越低,其粒度也就越细
  • 数据粒度越细,则占用的存储空间越大,但可以提供丰富的细节查询,反之,占用存储空间小,却只能提供粗略的查询
  • 数据的粒度选择是否恰当,不仅对数据仓库中数据量的大小有直接影响,同时还影响数据仓库所能回答的查询类型和查询深度
  • 在数据仓库设计时,数据粒度的大小需要依据数据量的大小与查询的详细程度之间做出权衡
双重粒度

指数据仓库中仅存放真实细节数据(最低粒度)和轻度的综合数据

数据仓库数据的粒度层级
  • 在数据仓库设计时,通常可以将数据按照3重粒度级别4个层次的存储方式,即将数据分为早期细节层当前细节层轻度综合层高度综合层等4个层级
  • 数据源经过最低粒度级别的综合进入当前细节层,并根据具体需要进行更高一层的综合,从而形成轻度综合层乃至高度综合层的数据。
  • 示例
    在这里插入图片描述
数据仓库的数据组织
  • 简单堆积文件:将每日从OLTP数据库中提取转换加工得到的数据逐天积累存储起来形成一个数据文件
  • 轮转综合文件:数据存储单位被分为日、周、月、年等几个粒度级别

数据挖掘概述

数据挖掘产生的背景

  • 信息化社会产生出海量的数据,并形成具有巨大潜在价值的“大数据”,犹如蕴藏大量“黄金白银”的矿山
  • 信息提取及其处理技术的相对落后,使世界陷入了“数据丰富、知识贫乏”的境地
  • 1989年第11届国际联合人工智能学术会议上首次提到数据库中的知识发现(Knowledge Discovery in database,KDD) 的概念
  • 它把数据库“数据”比喻为矿山,将“数据挖掘(Data Mining,DM)”作为开采工具,因此,“数据挖掘”一词很快流传开来,成为信息技术领域的研究热点
  • 数据挖掘和知识发现作为一种知识自动提取技术,涉及机器学习、模式识别、统计学、数据库和人工智能等众多学科领域,以及信息技术的支撑

数据挖掘与知识发现

定义6知识发现(KDD)就是采用有效算法大量的、不完全的、有噪声的、模糊和随机的数据识别有效的、新颖的、潜在有用乃至最终可理解的模式(Patterns)的非平凡过程

数据挖掘的数据来源

数据库类型的数据
  • 传统数据库(DB)是数据挖掘最常见、最丰富的数据来源之一
  • 数据仓库(DW)是从多个数据源,经过抽取-转化-集成(ETL)后加载到数据库中,用于支持管理决策的数据集合
  • 空间数据库(Spatial Database),如地理信息数据、遥感图像数据等
  • 时态数据库和时间序列数据库(Temporal Database and Time-Series Database)
    • 时态数据库通常存放与时间相关的属性值,如个人简历信息与时间相关的职务、工资等个人信息
    • 时间序列数据库存放随时间变化的值序列,如股票交易数据、气象观测数据等
  • 多媒体数据库(Multimedia Database)是存储有图形(Graphics)、图像(Image)、音频(Audio)、视频(Video)等
  • 文本数据库(Text Database),包括无结构类型(大部分的文本资料和网页)、半结构类型(XML数据)、结构类型(如关系数据库),OA系统使用文本数据库
非数据库类型数据
  • 数据流(Data Stream):大量、高速、连续到达的,潜在无限的有序序列数据。如网络监控、网页点击流、股票交易、流媒体和传感器网络等产生的数据
    • 数据处理特点:数据一经处理,除非特意保存,否则不能被再次读取处理,或再次读取数据的代价十分昂贵
    • 数据流处理的实时性要求,是它与传统数据库在存储、查询、访问等方面的最大区别
  • Web数据:互联网上的数据
    • 互联网上的部分数据存储在数据库之中,但更多的数据并不是存储在数据库之中,故将Web数据作为非数据库类型

数据挖掘的任务

分类分析(Classification Analysis)
  • 通过分析已知类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules)
  • 然后用这个分类模型或规则对样本集合以外的记录进行分类
聚类分析Clustering Analysis)
  • 根据给定的某种相似性度量标准,将没有类别标记的数据库记录集划分成若干个不相交的子集(簇),使簇内的记录之间相似度很高,而不同簇的记录之间相似度很低
  • 聚类分析可以帮助我们判断,数据库中记录划分成什么样的簇更有实际意义,在客户细分、定向营销、信息检索等领域广泛应用

聚类与分类是容易混淆的两个概念

  • 分类问题是有指导的示例式学习,即每个记录预先给定了类别标识,分类分析就是找出每个类别标识的描述,即满足什么条件的记录就一定是什么类别的判断规则
  • 聚类问题是一种无指导的观察式学习.每个记录没有预先定义的类别标识,聚类分析就是给每个记录指定一个类别标号
关联分析(Association Analysis)
  • 关联分析最初是针对购物篮分析问题而提出的,其目的是发现交易数据库中商品之间的相互联系的规则,即关联规则(Association rules)
  • 关联分析主要用于市场营销、事务分析等领域
序列模式 (Sequential Patterns)
  • 数据间的前后序列关系,包括相似模式发现、周期模式发现等
  • 主要应用于客户购买行为模式预测、疾病诊断、防灾救灾、Web访问模式预测和网络入侵检测等领域
离群点检测(0utlier detection )
  • 离群点(0utlier)是一个数据集中过分偏离其它绝大部分数据的特殊数据
  • 离群点检测就是希望从数据集中发现这种与众不同的数据,已在银行、保险、电信、电子商务等行业的欺诈行为检测中得到广泛应用,比如银行的反洗钱检测系统,互联网的入侵检测系统等
统计分析(Statistical Analysis)
  • 运用统计方法,结合事物相关的专业知识,从描述事物的数据上去推断该事物可能存在的内在规律
    • 聚集统计: 计数、求和、求平均值、求最大值和最小值
    • 回归分析,比如线性回归分析、非线性回归分析、多元线性和非线性回归分析等
    • 判别分析:贝叶斯判别、费歇尔判别、非参数判别等
    • 探索性分析,如主元分析、相关分析等等
新型挖掘任务

物联网、传感网络,卫星通讯和GPS导航导致许多新的数据类型和数据形式,加之量子计算等新理论,由此产生许多新型数据挖掘任务,如文本数据挖掘、web数据挖掘、微博数据挖掘、空间数据挖掘、数据流挖掘、不确定性数据挖掘和量子数据挖掘等

数据挖掘的步骤

在这里插入图片描述

问题定义

弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务

数据准备
  • 数据抽取,从各种可用数据源中抽取与挖掘任务相关的数据
  • 预处理,包括消除噪声、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等
  • 数据存储,即把经过预处理的数据,按照数据挖掘任务和挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象

当挖掘对象是数据仓库时,一般就不需要数据准备工作了
通常数据挖掘的数据源有多种类型(关系数据库、XML数据库、Web页面和文本文件),因此,数据准备是数据挖掘中十分重要、也是费时最多的一个步骤,可以占到整个数据挖掘过程70%左右的时间

挖掘实施

选定数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示

评估解释
  • 挖掘人员、企业高管和领域专家,对发现的知识或模式进行评估剔除冗余或无关的模式,并对余下的知识或模式进行解释发现并理解其中有实际应用价值的知识
  • 如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始
知识应用

将经过评估解释,且被用户理解的知识,用于商业决策

数据挖掘的应用

在金融行业的应用
  • 对账户进行信用等级的评估
  • 对庞大的数据进行主成分分析,剔除错误矛盾的数据杂质,有效地进行金融市场分析和预测
  • 分析信用卡的使用模式,“什么样的人使用信用卡属于什么样的模式”
  • 从股票交易的历史数据中得到股票交易的规则或规律
  • 探测金融政策与金融业行情的相互影响的关联关系
在保险行业的应用
  • 保险金额度的确定。通过数据挖掘可以得到,对不同行业的人、不同年龄段的人、处于不同社会层次的人,他们的保险金额度应该如何确定
  • 险种关联分析。分析购买了某种保险的人是否会同时购买另一种保险
  • 预测什么样的顾客将会购买什么样的新险种
在零售业中的应用
  • 分析顾客的购买行为和习惯。如“顾客一般购买了野营帐蓬后,过了一段时间就会购买睡袋和背包”
  • 分析销售商品的构成。将商品分成“畅销且单位赢利高”、“畅销但单位赢利低”,“畅销但无赢利”,“不畅销但单位赢利高”、“不畅销且单位赢利低”,“滞销”等多个类别,找出“满足什么条件的商品属于哪一种情况”
在客户关系管理中的应用
  • 客户细分。对大量的客户分类,提供针对性的产品和服务
  • 客户流失和保持分析。从已流失客户数据找出客户属性,服务属性和客户消费数据与客户流失的最终状态关系
  • 价值客户判断。将客户分为目前利润贡献大的“成熟期”;当前利润贡献少但未来增长大的“成长期”;当无利润贡献,为后续增长引擎的“开拓期”等几类
  • 客户满意度分析。客户满意度与客户忠诚度密切相关,随着客户满意度的增加客户忠诚度也随之增加。所以,企业与客户交往的目标就是尽可能的增加客户满意度
在信息领域中的应用
  • 网络信息安全保障。利用数据挖掘技术对网络的入侵检测数据进行分析,可从海量的安全事件数据中提取出尽可能多的潜在威胁信息特征,从而发现未知的入侵行为
  • 互联网信息挖掘。利用数据挖掘技术,从与Web相关的资源和行为中抽取用户感兴趣的、有用的模式和隐含信息
    • Web结构挖掘。Web文档之间的超级链接结构反映了文档之间的包含、引用或者从属关系。利用挖掘算法,分析Web页面之间的链接引用关系,识别出权威页面和非法链接等
    • Web使用挖掘。对网络日志文件和用户浏览等Web使用行为的分析,可以深层次挖掘出用户的兴趣爱好,并建立用户兴趣模型,以便为用户提供个性化服务,如智能搜索、网页或个性化商品推荐等
    • Web内容挖掘。就是对Web页面内容以及后台交易数据库进行挖掘,从中获取有用知识或模式的过程
在其它行业中的应用
  • 生物信息或基因数据挖掘
  • 数据挖掘在医学中的应用
  • 其它高科技研究领域
  • 社会科学研究领域

数据仓库与数据挖掘

数据仓库与数据挖掘的区别

在这里插入图片描述
数据仓库不是为数据挖掘而生的,反过来数据挖掘也不是为数据仓库而活的。它们是支持决策的两个相对独立的知识体系

数据仓库与数据挖掘的联系

大部分教材都取名《数据仓库与数据挖掘》,足见二者的联系是十分紧密的。数据仓库(DW)和数据挖掘(DM)都是为决策支持而提出的,其联系可以概括为以下几个方面:

  • DW为DM提供了更好的、更广泛的数据源。因为DW存有来自企业内部和外部较长时间的历史数据
  • DW为DM提供了新的数据支持平台。DW的只读方式,集成更新专门的机制(ETL)保证DM效率更高
  • DW为DM提供了方便。无需自己动手抽取集成数据
  • DM为DW提供了更好的决策支持工具。DW无决策工具
  • DM为DW的数据组织提出了更高的要求。DW不仅满足OLAP需要,还应满足DM的需要
  • DM为DW提供了广泛的技术支持

一个中心(决策支持),两个基本点(DW,DM)

  • 2
    点赞
  • 0
    评论
  • 2
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值