复习总结：数据挖掘（挖掘）

最新推荐文章于 2023-12-27 09:28:00 发布

奔跑吧蚂蚁呀

最新推荐文章于 2023-12-27 09:28:00 发布

阅读量640

点赞数 1

分类专栏：课程笔记文章标签：数据挖掘

本文链接：https://blog.csdn.net/qq_40488628/article/details/108087908

版权

课程笔记专栏收录该内容

8 篇文章 8 订阅

订阅专栏

数据挖掘复习指南

1 引论

1.1 数据挖掘

1.1.1 概念

从大量数据中非平凡地提取隐含的、未知的、有潜在价值的有用信息
自动化、半自动化地探索、分析大量数据，以求发现有意义的模式

1.1.2 流程

数据清洗 ==> 数据集成 ==> 数据挖掘 ==> 模式评估

1.1.2 任务

预测（分类、回归、…）
描述（聚类、关联规则挖掘、…）

2 数据

2.1 数据

2.1.1 基本概念

数据：数据对象和属性的集合
属性：对象的某种特质，一组属性可描述一个对象
属性值：属性的数值或符号描述

2.1.2 属性类型

标称Norminal = !=
序数Ordinal > <
区间Interval + -
比率Ratio * /
连续
离散

2.1.3 数据集类型

记录Record（数据矩阵、文档数据、事务数据）
图Graph（万维网、分子结构）
有序数据Ordered（空间数据、时间数据、序列数据、基因数据）

2.1.4 数据特征

维度Dimensionality
稀疏度Sparsity
分辨率Resolution

2.1.5 数据质量

噪声值Noise
离群值Outlier：和大多数数据对象明显不同的值
缺失值Missing：需要排除或者合理估计一个值
重复值Duplicate

2.2 数据处理

集成Aggregation：将多个属性合并到单个属性中，用于减少数据量、增强数据稳定性
抽样Sampling
降维Dimensionality Reduction
特征选择Feature Subset Selection
特征创建Feature Creation
离散化和二值化Discretization&Binarization
属性变换Attribute Transformation

2.3 相似性 & 距离

2.3.1 常见距离

曼哈顿距离Manhattan Distance $(\sum_{k=1}^n |p_k - q_k|)$
欧氏距离Euclidean Distance
明氏距离Minkowski Distance $(\sum_{k=1}^n |p_k - q_k| ^ r) ^ {\frac1r}$
马氏距离Mahalanobis Distance $(p-q)^T \Sigma ^{-1} (p-q)$

2.3.2 常见相似性

余弦相似性 $s (p, q) = c o s (p, q)$
相关系数（需要先进行向量归一化） $s (p, q) = p^{'} . q^{'}$

2.3.3 二进制向量的相似性

SMC（一致比率） $SMC = (M_{11} + M_{00}) / (M_{00} + M_{01} + M_{10} + M_{11})$
J（去除全0的一致比率） $J = (M_{11}) / (M_{01} + M_{10} + M_{11})$

2.3.2 距离的特性

正定性
对称性
满足三角不等式

3 数据探测

3.1 目的

直观了解数据的特点
帮助选择数据处理的工具

3.2 数字特性Summary Statistics

众数Mode
百分位数Percentile： $x_p$ 表示数据集中有 $\%$ 的数据小于 $x_p$
均值Mean & 中位数Median ：衡量数据位置Location
极差Range & 方差Variance：衡量数据的散布Spread
协方差矩阵Covariance： $Cov(x_i, x_j) = 1 / (m - 1) * \sum_{k=1}^m (x_i^{(k)} - \bar{x_i})(x_j^{(k)} - \bar{x_j})$

3.3 可视化

直方图Histogram
- 可以表现数据的频率分布信息
箱图Box Plot
- 可以表现四分百分位数信息
散点图Scatter Plot
- 属性值决定点的位置
- 可以通过数据点的大小、形状、颜色表示其他属性
等高线图Contour Plot
- 相似的属性值被划分到同一区域，等值线形成了区域边界
矩阵图Matrix Plot
- 当数据按照类标签排序后效果比较好
- 常用于可视化距离/相似度矩阵
- 属性值需要规范化
平行坐标图Parallel Coordinate
- 常用于展现高维数据
- 横轴各列为属性，纵轴为属性值，一个数据对象表示为一条线
星图Star Plot
- 和平行坐标图类似，但是对象线条组成了多边形

4 分类

4.1 决策树

4.1.1 实用构建算法

Hunt‘s Algorithm
CART
ID3, C4.5
SLIQ, QPRINT

4.1.2 一般构建算法

$D_t$ 是抵达决策节点t的数据集合

如果 $D_t$ 包含的数据全部为同一类 $y_t$ ，则将该点作为叶子节点，标注为 $y_t$
如果 $D_t$ 为空，则将该节点作为叶子结点，标注为 $y_{default}$
如果 $D_t$ $包含多类数据，则按照某一属性将数据划分为多个子集，对应于多个子节点

4.1.3 属性划分方法

标称Norminal、序数Order：将属性值的取值集合划分成多组即可
连续Continus：离散化后划分；选取某一阈值进行二分 (A < v) or (A >= v)

4.1.4 属性最佳划分策略

选取使得划分后数据单纯度最高（混乱度最低）的划分策略

基尼系数Gini Index
- 节点 $\sum_j [p(j | t)]^2$
- 划分 $GINI_{SPLIT}(t) = \sum_{i \in son(t)} [{n_i} / {n_t} * GINI(i)]$
熵Entropy
- 节点 $\sum_j [p(j | t) * log p(j | t)]$
- 划分 $Entropy_{SPLIT}(t) = \sum_{i \in son(t)} [{n_i} / {n_t} * Entropy(i)]$
误分类误差Misclassification error
- 节点 $Error(t) = 1 - max_j p(j | t)$

4.1.5 何时停止拓展

所有数据都为同一类；所有数据都有着相似的属性
提前终止

4.1.6 算法评价

优点：构造简单，预测迅速，在属性较少时解释性好
缺点：？？？

4.2 朴素贝叶斯

利用贝叶斯公式 $\frac{P(X|C) * P(C)} {P(X)}$ ，找出概率最大的C

4.2.1 算法要点

在各个类C进行概率比较式， $P (X)$ 都包含在其中，因此可以忽略这一项，只比较分子
似然函数的合成 $\Pi_j P(X_j | C) = P(X_1 | C) * P(X_2 | C) * ...$
$P(X_i | C)$ 的计算
- 对于离散数据，可以用频率估计概率
- 对于连续数据，基于高斯分布进行概率计算 $P(X_i | C) = g(x_i, \mu_C, \sigma_C)$