国科大数据挖掘课程总结

最新推荐文章于 2021-06-12 14:43:32 发布

1只小包子

最新推荐文章于 2021-06-12 14:43:32 发布

阅读量5.9k

点赞数 8

分类专栏：数据挖掘文章标签：数据仓库数据挖掘

本文链接：https://blog.csdn.net/a940902940902/article/details/78867953

版权

本文详细介绍了数据仓库的概念，强调其面向主题、集成、时变和非易失的特性。接着阐述了数据理解与预处理的重要性，包括数据清洗、集成、转换和降维。在数据挖掘部分，讲解了关联规则、分类、聚类和推荐系统的基本原理和应用。通过盒图、Q-Q图等工具分析数据特征，并讨论了数据清洗的方法。文章还涵盖了数据正则化、相关性分析、属性子集选择和关联规则挖掘算法，如Apriori和FP-Tree。最后，介绍了分类算法（如决策树和贝叶斯分类）、聚类算法（如K-means）和推荐系统的协同过滤方法。

摘要由CSDN通过智能技术生成

数据仓库概念
数据理解与预处理
关联规则
分类算法
聚类算法
推荐系统

数据仓库概念

数据仓库是面向主题集成时变非易失的。
面向主题：围绕主题如顾客供应商而非日常的操作和事务处理
集成：将关系数据库文件联机事务处理集成起来
时变的：从历史（过去5-10年）提供数据
非易失：数据仓库主要两种操作数据初始装入和访问不需要并非事务等

数据理解与预处理

由于数据缺失，数据噪声（Salary=10），数据类型不一致（rating可以用1,2,3也可用A，B，C表示）导致数据需要进行预处理。
预处理过程主要分为：
1）数据清洗：处理缺失值平滑噪声和离群点，解决数据不一致问题
2）数据集成：将多种数据库，文件，数据立方体数据集成
3）数据转换：将数据正则化
4）数据降维和连续数据离散化
离散数据理解：
四分位点：Q1（25%），Q3（75%）
IQR range=Q3-Q1
Five number summery：min Q1 medium Q3 max
outlier：大于或小于1.5倍 IQR
盒图：
这里写图片描述

盒图是在1977年由美国的统计学家约翰•图基(John Tukey)发明的。它由五个数值点组成：最小值(min)，下四分位数(Q1)，中位数(median)，上四分位数(Q3)，最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线，这个延伸线成为“胡须(whisker)”。
由于现实数据中总是存在各式各样地“脏数据”，也成为“离群点”，于是为了不因这些少数的离群数据导致整体特征的偏移，将这些离群点单独汇出，而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验，就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即

这里写图片描述

• IQR = Q3-Q1，即上四分位数与下四分位数之间的差，也就是盒子的长度。
• 最小观测值为min = Q1 - 1.5*IQR，如果存在离群点小于最小观测值，则胡须下限为最小观测值，离群点单独以点汇出。如果没有比最小观测值小的数，则胡须下限为最小值。
• 最大观测值为max = Q3 -1.5*IQR，如果存在离群点大于最大观测值，则胡须上限为最大观测值，离群点单独以点汇出。如果没有比最大观测值大的数，则胡须上限为最大值。

通过盒图，在分析数据的时候，盒图能够有效地帮助我们识别数据的特征：
1. 直观地识别数据集中的异常值(查看离群点)。
2. 判断数据集的数据离散程度和偏向(观察盒子的长度，上下隔间的形状，以及胡须的长度)。

Q-Q图：
首先，数据值经过排序，且累积分布值按照公式 (i– 0.5)/n 进行计算，其中字母表示总数为 n 的值中的第 i 个值（累积分布值给出了某个特定值以下的值所占的数据比例）

Q-Q图详解

数据清洗：
对于噪声的平滑
等距离分区：将数据划分成N个箱，A，B是数据的最大和最小值，W=（A-B）/N，则Bin1=[B,B+W],[B+W,B+2W]……
等深度分区：分成N个区间每个区间中的数据量相等
对于Bin中的数据可使用平均数进行平滑同时也可用Bin边界进行平滑。
例如：
这里写图片描述