数据挖掘课堂笔记

最新推荐文章于 2022-05-14 22:09:46 发布

Vicente.

最新推荐文章于 2022-05-14 22:09:46 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/qq_42447015/article/details/108759243

版权

放给憨批zcy的笔记

9/23

数据挖掘中常见的挑战：

噪声
不确定性：重复测量数据
不完备性：部分数据遗失

数据挖掘趋势：

大规模数据
高维度
异构的信息
open

2. 1数据对象与属性类型

对象实体
别名：data entity samples examples …

通过属性来描述对象 attributes
离散型的属性和连续型的属性

标称属性：
类似于hash值，类如enum中1-black,2-red,3-purple

二元属性：Binary
只有两个状态

9/28

Chapter6

频繁模式挖掘

Apriori方法

6.1

项集

k-项集：有k种物品的项集

support:

support count: 绝对的，支持度，出现的次数
support: 相对的，出现的比率

频繁项集

支持度不低于最小支持度阈值的项集

要提前规定最小支持度

关联规则

$\rightarrow Y$ ，二者均为项集且相交为空

ex: $\{a, b\} \rightarrow \{c\}$

Supprt：规则的支持度，二者同时出现的比率

Confidence：规则的置信度，在出现X的记录中也出现Y的比率

目标

关联规则挖掘的目标：找到强规则

强规则的支持度大于最小支持度阈值，置信度大于最小置信度阈值

规则的支持度和置信度

支持度：支持度小说明XY同时出现是小概率的

置信度：度量了规则做出的推断可靠性

找到强规则

Brute-force approach（暴力搜索）
- 复杂度太高 $3^n-2^n+1$
两步法，解耦支持度和置信度
- 相同项集的二划分得到的关系支持度一样，就是项集的支持度
  - 频繁项集产生的关系的支持度可以满足要求
  - 寻找强规则的第一步是找频繁项集
- 通过对频繁项集二分产生高置信度规则
- 复杂度仍然很高

6.2频繁项集的产生

Apriori principle

如果一个项集是不频繁的，包含它的超集也是不频繁的
项集的支持度不会超过它子集的支持度
从小到大寻找，发现一个不频繁项集就不必再计算它的超集

Apriori Algorithm

规则产生

频繁项集二分产生规则，只需要考虑置信度

产生规则的个数为 $2^k-2$ ，因为不能用空集和全集

从同一个项集中产生的规则的置信度有反单调性，例：
$L=\{A, B, C,D\}\\ c(ABC \rightarrow D) \geq c(AB \rightarrow CD) \geq c(A \rightarrow BCD)$
搜索时可以大量剪枝

10/7
ID3
结点的不纯度
Entropy熵：熵来自于信息论，熵值越大，不确定性程度越大，不纯度越大。
在这里插入图片描述

KNN

基于实例的方法：
储存训练数据并延迟处理直到有未知的样本需要分类。
k最近邻方法：样本被描述成欧式空间上一个个的点

相似性与相异性:
相似性：
值越大说明两个对象越相似
通常的值域是[0,1]
相异性：
两个对象越相近值越小，最小值为0，最大值没有确切范围
邻近性：

数据矩阵：
二模的

相异性矩阵：
所有点都是距离信息
对角矩阵
单模的

标称属性的近邻性度量：
标称属性只能判断两者等或是不等，无法判断大小。
方法一：简单匹配
m：匹配上的数量 p:总数量
d(i,j) = (p-m)/p
例子：d1是（红，中国，抽烟）；d2是（黑，中国，不抽烟）
d(1,2) = (3-1)/3

方法二：
产生大量的二元属性
M个标称属性取值每个产生一个新的二元变量

二元属性是一种特殊的标称属性。

列联表:
对称：取0取1都很重要
d(i,j) = (r+s)/(q+r+s+t)
非对称性：取0取1有显著重要区别
d(i,j) = (r+s)/(q+r+s)

距离
欧式距离
当p个属性的取值尺度不一样时，标准化是必须的。
曼哈顿距离（城市街区距离）
闵可夫斯基距离：一种更泛化的距离度量
数据对象i和j有p个属性，h是阶数，所有的p维属性的差值的绝对值的h次方，求和再开h次方。
距离的特性：
非负性，同一性

有序属性的邻近性度量：
有序属性：X_if是第i个对象第f个属性的取值M_f是属性f的取值个数。
每个属性的取值由其排位替代。
将每个熟悉的的值域映射到[0,1]上。

分位数-分位数图plot
双变量的分为数值的情况

散点图
每对属性
画的是两个属性

KNN k近邻

1-近邻：
1NN
针对测试样本，计算其与所有训练样本的距离。
找到最近的邻居，将其类别赋予测试样本。

簇

cluster：数据对象的集合
簇内的对象相似或相关
与其他簇的对象不相似或不相关

cluster analysis 聚类分析
类内距离最小化
类间距离最大化

预测位置样本的类别，泛化能力

从观测数据到理解数据

野点检测

簇的种类

完全可分类的簇
基于划分的聚类
分层聚类
基于密度的方法
基于网格的方法

划分算法
把n个数据对象划分到k个簇中去，满足每个点到其聚类中心的距离的平方和最小
在这里插入图片描述
全局最优，枚举所有可能的划分方法
启发式方法：k-均值和k-中心点算法
k-均值：每个簇由其簇的中心来表示
每个数据点被分配到离得最近的中心所在的簇
k的数值需要提前设定
更新中心点：中心点是簇中所有对象的均值来表示
总结：
1.簇的个数
2.对野点比较铭感
3.不同的初始点会导致不同的簇