放给憨批zcy的笔记
9/23
数据挖掘中常见的挑战:
- 噪声
- 不确定性:重复测量数据
- 不完备性:部分数据遗失
数据挖掘趋势:
- 大规模数据
- 高维度
- 异构的信息
- open
2. 1数据对象与属性类型
对象 实体
别名:data entity samples examples …
通过属性来描述对象 attributes
离散型的属性和连续型的属性
标称属性:
类似于hash值,类如enum中1-black,2-red,3-purple
二元属性:Binary
只有两个状态
9/28
Chapter6
频繁模式挖掘
Apriori方法
6.1
项集
k-项集:有k种物品的项集
support:
- support count: 绝对的,支持度,出现的次数
- support: 相对的,出现的比率
频繁项集
支持度不低于最小支持度阈值的项集
要提前规定最小支持度
关联规则
X → Y X \rightarrow Y X→Y,二者均为项集且相交为空
ex: { a , b } → { c } \{a, b\} \rightarrow \{c\} {a,b}→{c}
Supprt:规则的支持度,二者同时出现的比率
Confidence:规则的置信度,在出现X的记录中也出现Y的比率
目标
关联规则挖掘的目标:找到强规则
强规则的支持度大于最小支持度阈值,置信度大于最小置信度阈值
规则的支持度和置信度
支持度:支持度小说明XY同时出现是小概率的
置信度:度量了规则做出的推断可靠性
找到强规则
- Brute-force approach(暴力搜索)
- 复杂度太高 3 n − 2 n + 1 3^n-2^n+1 3n−2n+1
- 两步法,解耦支持度和置信度
- 相同项集的二划分得到的关系支持度一样,就是项集的支持度
- 频繁项集产生的关系的支持度可以满足要求
- 寻找强规则的第一步是找频繁项集
- 通过对频繁项集二分产生高置信度规则
- 复杂度仍然很高
- 相同项集的二划分得到的关系支持度一样,就是项集的支持度
6.2频繁项集的产生
Apriori principle
- 如果一个项集是不频繁的,包含它的超集也是不频繁的
- 项集的支持度不会超过它子集的支持度
- 从小到大寻找,发现一个不频繁项集就不必再计算它的超集
Apriori Algorithm
规则产生
频繁项集二分产生规则,只需要考虑置信度
产生规则的个数为 2 k − 2 2^k-2 2k−2,因为不能用空集和全集
从同一个项集中产生的规则的置信度有反单调性,例:
L
=
{
A
,
B
,
C
,
D
}
c
(
A
B
C
→
D
)
≥
c
(
A
B
→
C
D
)
≥
c
(
A
→
B
C
D
)
L=\{A, B, C,D\}\\ c(ABC \rightarrow D) \geq c(AB \rightarrow CD) \geq c(A \rightarrow BCD)
L={A,B,C,D}c(ABC→D)≥c(AB→CD)≥c(A→BCD)
搜索时可以大量剪枝
10/7
ID3
结点的不纯度
Entropy熵:熵来自于信息论,熵值越大,不确定性程度越大,不纯度越大。
KNN
基于实例的方法:
储存训练数据并延迟处理直到有未知的样本需要分类。
k最近邻方法:样本被描述成欧式空间上一个个的点
相似性与相异性:
相似性:
值越大说明两个对象越相似
通常的值域是[0,1]
相异性:
两个对象越相近值越小,最小值为0,最大值没有确切范围
邻近性:
数据矩阵:
二模的
相异性矩阵:
所有点都是距离信息
对角矩阵
单模的
标称属性的近邻性度量:
标称属性只能判断两者等或是不等,无法判断大小。
方法一:简单匹配
m:匹配上的数量 p:总数量
d(i,j) = (p-m)/p
例子:d1是(红,中国,抽烟);d2是(黑,中国,不抽烟)
d(1,2) = (3-1)/3
方法二:
产生大量的二元属性
M个标称属性取值每个产生一个新的二元变量
二元属性是一种特殊的标称属性。
列联表:
对称:取0取1都很重要
d(i,j) = (r+s)/(q+r+s+t)
非对称性:取0取1有显著重要区别
d(i,j) = (r+s)/(q+r+s)
距离
欧式距离
当p个属性的取值尺度不一样时,标准化是必须的。
曼哈顿距离(城市街区距离)
闵可夫斯基距离:一种更泛化的距离度量
数据对象i和j有p个属性,h是阶数,所有的p维属性的差值的绝对值的h次方,求和再开h次方。
距离的特性:
非负性,同一性
有序属性的邻近性度量:
有序属性:Xif是第i个对象第f个属性的取值Mf是属性f的取值个数。
每个属性的取值由其排位替代。
将每个熟悉的的值域映射到[0,1]上。
分位数-分位数图plot
双变量的分为数值的情况
散点图
每对属性
画的是两个属性
KNN k近邻
1-近邻:
1NN
针对测试样本,计算其与所有训练样本的距离。
找到最近的邻居,将其类别赋予测试样本。
簇
cluster:数据对象的集合
簇内的对象相似或相关
与其他簇的对象不相似或不相关
cluster analysis 聚类分析
类内距离最小化
类间距离最大化
预测位置样本的类别,泛化能力
从观测数据到理解数据
野点检测
簇的种类
完全可分类的簇
基于划分的聚类
分层聚类
基于密度的方法
基于网格的方法
划分算法
把n个数据对象划分到k个簇中去,满足每个点到其聚类中心的距离的平方和最小
全局最优,枚举所有可能的划分方法
启发式方法:k-均值和k-中心点算法
k-均值:每个簇由其簇的中心来表示
每个数据点被分配到离得最近的中心所在的簇
k的数值需要提前设定
更新中心点:中心点是簇中所有对象的均值来表示
总结:
1.簇的个数
2.对野点比较铭感
3.不同的初始点会导致不同的簇
k-中心点:每个簇由其簇中的一个对象来表示
每个簇由簇中间未知的样本点作为簇的中心
聚类评估
测定聚类的质量
外在方法 内在方法
内在的 两种评判指标
WSS
BSS
层次聚类方法
把数据划分成不同层上的组群,如层次。将数据对象组成层次结构或簇的“树”
两种典型的方法:
1.凝聚的层次聚类方法 自底向上的方法
2.分裂的层次聚类方法 自顶向下的方法
是正向、逆向的过程。
凝聚的层次聚类方法:
step1:每个点作为一个簇开始,每个样本的邻近性矩阵
step2:通过合并形成了一些簇
如何去评判邻近性