【数据挖掘】课本整理

最新推荐文章于 2021-12-29 12:07:24 发布

nancy5_9

最新推荐文章于 2021-12-29 12:07:24 发布

阅读量503

点赞数

分类专栏：面试准备文章标签：数据挖掘

本文链接：https://blog.csdn.net/nancy5_9/article/details/44652057

版权

面试准备专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第二章数据预处理

a.数据清理脏数据

填充缺失值使用缺省值、平均值、最可能的值【贝叶斯决策树等】

光滑噪声封箱【箱均值箱边界】回归聚类

识别离群点

【原则】唯一性原则连续性原则空值原则

b.数据集成

合并多个数据源的数据解决一致性模式集成对象匹配实体识别问题

冗余：通过相关分析检测到。根据数据度量的一个属性能在多大程度上蕴含另一个 --皮尔逊积矩系数【PearsonProduct coefficient】

大于零则正相关等于零独立小于零负相关

对于离散数据也可以通过卡方检验发现

属性上检测冗余同时元组tuple上也要查重

数据值冲突的检测和处理重量单位等等

c。数据变换

光滑【封箱回归聚类】

聚集数据变成数据立方体

数据泛化：年龄--》青年中年老年

规范化：按比例缩放最小-最大规范化 z-score规范化【减平均值除以方差】按小数定标规范化【小数点左移最大的绝对值的位数】

属性构造：构造新的属性并添加进去

d。数据归约

数据立方体聚集

属性子集选择去掉不相关和冗余属性

维度归约小波变换DWT【有损压缩，比DFT需要的空间小，局部性好，有利于保留局部细节高维数据】主成分分析【PCA KL方法稀疏数据】

数值归约

【回归和对数线性模型】

【直方图---等宽等频【等深】 V最优【最小方差】MaxDiff【两个直方图之间相邻距离最大】】

【聚类】

【抽样】无放回有放回聚类抽样分层抽样

离散化和概念分层产生

分箱容易受离散点影响

直方图分析非监督桶

基于熵的离散化：期望信息需求。

基于卡方的区间合并

聚类分析

根据直观划分离散化3-4-5规则

概念集属性分层偏序关系

描述性数据汇总：中心趋势度量：均值中位数众数中列数【数据最大值最小值的平均值】

数据离中趋势度量：四分位数（Quatile）四分位数极差（IQR）方差（variance）

图形表示：直方图、盒图、分位数图、分位数-分位数图、散布图和散布图矩阵

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

第三章数据仓库和OLAP技术概述

数据立方体 上卷下钻切片和切块

数据仓库

面向主题的

集成的

时变的

非易失的

数据仓库的构造：数据集成数据清理数据统一

OLTP和OLAP的主要区别：

1.用户和系统的面向性。OLTP面向顾客，OLAP面向市场

2.数据内容 OLTP管理当前数据，琐碎难以用于决策

OLAP管理历史数据，通过汇总和聚集机制，不同力度级别的信息，可以用于决策

3.数据库设计 OLTP ER数据模型和面向应用的数据库设计。OLAP星形和雪花形

4.视图：OLTP企业或部门内部的当前数据，不涉及历史数据或不同组织的。OLAP跨越数据库模式的多个版本，来自不同组织的数据，存在多个存储介质上

5.访问模式： OLTP原则是原子事务构成，需要并发控制和恢复机制

6.其他：数据库大小、操作的频繁程度、性能度量

为什么要分开OLTP和OLAP？为了提高两个系统各自的性能；OLTP并发控制，加锁，OLAP只读访问；两种系统中数据的结构、内容和用法都不尽相同。

多维数据模型：

星形一个事实表，一堆维表，每维只用一个表表示

雪花形星形的变种，某些维度有标准格式，可能会进一步划分

事实星座形： factconstellation

数据仓库 datawarehouse 整个组织企业范围的事实星座形可以对多个相关主题建模

数据集市 datamart上述的部门子集，通常用星形或雪花形

DMQL语言

聚集函数类型有三种：分布的【count 分开算也可以 min max 】代数的【由分布函数做运算获得】整体的【中位数众数排序】

概念分层：上卷：roll-up

下钻：drill-down

切片/切块：slice/dice

转轴：rotate/pivot

三层数据仓库的系统结构：

底层仓库数据服务器关系数据库系统

中间 OLAP服务器

顶层前端客户端

三种数据仓库模型：企业仓库、数据集市、模拟仓库【操作数据库视图的集合】

元数据存储库：元数据：关于数据的数据应当持久存放和管理

OLAP服务器的类型： ROLAP 关系型DBMS优化可伸缩性强数据存在关系表中汇总事实表

MOLAP多维基于数组的多维存储引擎能快速索引，但如果是稀疏数据则存储的存储利用率比较低存在多维数组结构中

HOLAP混合结合R的较大的可伸缩性和M的快速计算

特殊的SQL服务器：

数据仓库的实现：大多数OLAP产品借助于多维聚集的预计算。然而，预计算的主要挑战是，如果数据立方体中所有的方体都预先计算，所需的存储空间可能爆炸，特别是当立方体包含很多维时，当许多维都具有相关联的概念分层，每个具有多层时，存储需求甚至更多，这个问题称作维灾难。

所以选择部分物化：有选择的计算整个方体中的部分子集。

冰山立方体：只计算聚集值大于某个最小支持度阈值的立方体单元

shellcube外壳立方体，预计算只有少量维度的立方体【3-5】

OLAP数据的索引：

位图索引【bitmapindexing】：

连接索引：登记来自关系数据库的两个关系的可连接行，能够识别可连接的元组。星形模式：对于交叉搜索非常赞

组合：位图连接索引

如何选择不同粒度的物化方体：

1.细粒度数据不能由粗粒度数据产生，先去掉不能满足要求粒度的方体

2.最好选择最接近粒度的，不要选择太细粒度的，增加运算量

3.还要考虑连接的代价，和索引

MOLAP存储二级办法：稠密数组：数组结构；稀疏数组：稀疏矩阵结构；二维稠密数组：B树索引

数据仓库到数据挖掘OLAM

数据仓库用于信息处理【查询报表】分析处理【用户通过OLAP汇总数据和细节数据之间导航】数据挖掘【支持知识发现【KDD】】

nancy5_9

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘】课本整理

第二章数据预处理 a. 数据清理脏数据填充缺失值使用缺省值、平均值、最可能的值【贝叶斯决策树等】光滑噪声封箱【箱均值箱边界】回归聚类识别离群点【原则】唯一性原则连续性原则空值原则 b. 数据集成合并多个数据源的数据解决一致性模式集成对象匹配实体识别问题冗余：通过相关分析检测到。根据数据度量的一个属性能在多大程度上蕴含另一个 --皮尔逊积矩系数【Pearson Product coefficient】大于零则
复制链接

扫一扫

专栏目录