数据挖掘学习笔记一

数据挖掘学习笔记一

背景

  • 随着信息技术的不断发展,大量数据的产生和收集导致信息爆炸。
  • 使用者发现获取有用信息变得越来越困难。
  • 现代社会的竞争趋势要求对数据进行实时和深层次的分析。
  • 企业需要决策支持的新技术

数据仓库和数据挖掘

数据仓库(DW):面向主题的,集成的,随时间不断变化的数据集合。

数据挖掘(DM):从大量的数据中提取隐含的,未知的,可信而有效的知识。

数据仓库以及联机分析处理(OLAP)

数据仓库层次结构

这里写图片描述

数据库,数据仓库与数据挖掘的关系?

  • 数据库、数据仓库是数据挖掘的对象
  • 数据挖掘并非一定要数据库、数据仓库的支持
  • 数据挖掘的对象可以是:文件、文本、图像、Web等结构化、半结构化或非结构化数据
  • 结合数据库、数据仓库等技术将增强数据挖掘的性能与效率

事务型系统和分析型系统分离
这里写图片描述

数据仓库的四个特征

  1. 面向主题


    这里写图片描述

  2. 集成

  3. 稳定性

这里写图片描述

  1. 随时间而变化

数据仓库与传统数据库的区别

数据库数据仓库
数据内容当前值
数据目标面向业务操作、重复处理
数据特性动态变化,更新
数据结构结构化、复杂、适于操作
使用频率
数据访问量每次操作访问量少
相应时间要求

数据仓库的体系结构

这里写图片描述

数据仓库系统 = ETL+数据存储+OLAP+客户端

ETL = 数据抽取+数据转换+数据清洗+数据装载

  • 数据抽取:提取系统分析必需的那一部分数据
  • 数据清洗:将错误的,不一致的数据在进入DW之前予以更正或删除
  • 数据转换:统一数据格式
  • 数据装载:数据传送到DW中

数据仓库存储

三种存储方式:多维数据库,关系数据库,两种方式结合

存放的数据:从业务系统中提取并经过清洗,转换的数据;OLAP分析和数据挖掘的需要增加的信息。

数据集市

面向主题在逻辑上和物理上划分出来的数据仓库中的数据子集,称为数据集市。

OLAP(Online Analysis Process)

满足在多维环境下特定的查询和报表需求。表示:(维1,维2,…维n,度量指标)

例如:(地区,时间, 产品,销售额)

数据仓库的数据组织

这里写图片描述

数据粒度与数据分割

什么是粒度?

两种形式。

  • 综合度高低:数据仓库的数据单位中保存的数据细化或综合程度的级别。粒度越高,细节程度越低,综合程度越高。

这里写图片描述

  • 抽样率:以一定的抽样率对DW中的数据进行抽样后得到一个样本数据库,粒度由抽样率的高低来划分。
数据分割

定义:将数据分散到各自的物理单元中以便能够独立处理,数据分割后的数据单元称为分片。

分割方法:按时间,地点,业务领域划分。最常用的方法是按照时间进行分割。

这里写图片描述

数据仓库的数据组织形式

(1)简单堆积文件

将每天由业务数据库提取并处理后的数据逐天存储起来.。

(2)定期综合文件

数据存储单位被分成日,周,月,季,年等.首先数据被逐一添加到每天的数据集合中.当一个星期过去了,每天数据被综合成周数据,依次类推,周数据被综合成月数据…… 也叫轮转综合结构.

(3)连续文件

将定期综合文件和简单堆积文件综合起来.

数据仓库的数据追加和清理

1、数据追加

解决的是数据仓库初始数据装载后,如何再向数据仓库输入数据的问题。关键:捕获数据变化,并将数据的变化记录下来.

(1)时标法:为数据记录增加一个时间标记字段.

(2)前后快照比较法:将上次执行完数据追加任务的当前业务数据库快照记录下来,同要执行新的数据追加任务前的原先业务数据库快照进行比较,比较这两次快照的不同,来生成追加的内容.

(3)DELTA文件法:业务数据库应用程序将它执行成功的修改操作记录下来,形成DELTA作为追加的内容.

(4)日志文件法:通过分析数据库系统日志来获取数据的变化,得到追加内容.

2、数据仓库数据清理

不是指数据库清理和ETL所指的清理。

1)数据从操作型环境进入分析型环境.

2)数据从细节数据组建转换为综合数据.

3)数据从高速磁盘中转移到低速存储介质上.

4)数据失去实际意义,最终被清除.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值