数据挖掘课堂笔记

放给憨批zcy的笔记

9/23

数据挖掘中常见的挑战:

  • 噪声
  • 不确定性:重复测量数据
  • 不完备性:部分数据遗失

数据挖掘趋势:

  • 大规模数据
  • 高维度
  • 异构的信息
  • open
2. 1数据对象与属性类型

对象 实体
别名:data entity samples examples …

通过属性来描述对象 attributes
离散型的属性和连续型的属性

标称属性:
类似于hash值,类如enum中1-black,2-red,3-purple

二元属性:Binary
只有两个状态

9/28

Chapter6

频繁模式挖掘

Apriori方法

6.1

项集

k-项集:有k种物品的项集

support:

  • support count: 绝对的,支持度,出现的次数
  • support: 相对的,出现的比率
频繁项集

支持度不低于最小支持度阈值的项集

要提前规定最小支持度

关联规则

X → Y X \rightarrow Y XY,二者均为项集且相交为空

ex: { a , b } → { c } \{a, b\} \rightarrow \{c\} {a,b}{c}

Supprt:规则的支持度,二者同时出现的比率

Confidence:规则的置信度,在出现X的记录中也出现Y的比率

目标

关联规则挖掘的目标:找到强规则

强规则的支持度大于最小支持度阈值,置信度大于最小置信度阈值

规则的支持度和置信度

支持度:支持度小说明XY同时出现是小概率的

置信度:度量了规则做出的推断可靠性

找到强规则
  1. Brute-force approach(暴力搜索)
    • 复杂度太高 3 n − 2 n + 1 3^n-2^n+1 3n2n+1
  2. 两步法,解耦支持度和置信度
    • 相同项集的二划分得到的关系支持度一样,就是项集的支持度
      • 频繁项集产生的关系的支持度可以满足要求
      • 寻找强规则的第一步是找频繁项集
    • 通过对频繁项集二分产生高置信度规则
    • 复杂度仍然很高

6.2频繁项集的产生

Apriori principle
  • 如果一个项集是不频繁的,包含它的超集也是不频繁的
  • 项集的支持度不会超过它子集的支持度
  • 从小到大寻找,发现一个不频繁项集就不必再计算它的超集
Apriori Algorithm
规则产生

频繁项集二分产生规则,只需要考虑置信度

产生规则的个数为 2 k − 2 2^k-2 2k2,因为不能用空集和全集

从同一个项集中产生的规则的置信度有反单调性,例:
L = { A , B , C , D } c ( A B C → D ) ≥ c ( A B → C D ) ≥ c ( A → B C D ) L=\{A, B, C,D\}\\ c(ABC \rightarrow D) \geq c(AB \rightarrow CD) \geq c(A \rightarrow BCD) L={A,B,C,D}c(ABCD)c(ABCD)c(ABCD)
搜索时可以大量剪枝

10/7
ID3
结点的不纯度
Entropy熵:熵来自于信息论,熵值越大,不确定性程度越大,不纯度越大。
在这里插入图片描述
在这里插入图片描述

KNN

基于实例的方法:
储存训练数据并延迟处理直到有未知的样本需要分类。
k最近邻方法:样本被描述成欧式空间上一个个的点

相似性与相异性:
相似性:
值越大说明两个对象越相似
通常的值域是[0,1]
相异性:
两个对象越相近值越小,最小值为0,最大值没有确切范围
邻近性:

数据矩阵:
二模的

相异性矩阵:
所有点都是距离信息
对角矩阵
单模的

标称属性的近邻性度量:
标称属性只能判断两者等或是不等,无法判断大小。
方法一:简单匹配
m:匹配上的数量 p:总数量
d(i,j) = (p-m)/p
例子:d1是(红,中国,抽烟);d2是(黑,中国,不抽烟)
d(1,2) = (3-1)/3

方法二:
产生大量的二元属性
M个标称属性取值每个产生一个新的二元变量

二元属性是一种特殊的标称属性。

列联表:
对称:取0取1都很重要
d(i,j) = (r+s)/(q+r+s+t)
非对称性:取0取1有显著重要区别
d(i,j) = (r+s)/(q+r+s)

距离
欧式距离
当p个属性的取值尺度不一样时,标准化是必须的。
曼哈顿距离(城市街区距离)
闵可夫斯基距离:一种更泛化的距离度量
数据对象i和j有p个属性,h是阶数,所有的p维属性的差值的绝对值的h次方,求和再开h次方。
距离的特性:
非负性,同一性

有序属性的邻近性度量:
有序属性:Xif是第i个对象第f个属性的取值Mf是属性f的取值个数。
每个属性的取值由其排位替代。
将每个熟悉的的值域映射到[0,1]上。

分位数-分位数图plot
双变量的分为数值的情况

散点图
每对属性
画的是两个属性

KNN k近邻

1-近邻:
1NN
针对测试样本,计算其与所有训练样本的距离。
找到最近的邻居,将其类别赋予测试样本。

cluster:数据对象的集合
簇内的对象相似或相关
与其他簇的对象不相似或不相关

cluster analysis 聚类分析
类内距离最小化
类间距离最大化

预测位置样本的类别,泛化能力

从观测数据到理解数据

野点检测

簇的种类

完全可分类的簇
基于划分的聚类
分层聚类
基于密度的方法
基于网格的方法

划分算法
把n个数据对象划分到k个簇中去,满足每个点到其聚类中心的距离的平方和最小
在这里插入图片描述
全局最优,枚举所有可能的划分方法
启发式方法:k-均值和k-中心点算法
k-均值:每个簇由其簇的中心来表示
每个数据点被分配到离得最近的中心所在的簇
k的数值需要提前设定
在这里插入图片描述更新中心点:中心点是簇中所有对象的均值来表示
总结:
1.簇的个数
2.对野点比较铭感
3.不同的初始点会导致不同的簇

k-中心点:每个簇由其簇中的一个对象来表示
每个簇由簇中间未知的样本点作为簇的中心

聚类评估

测定聚类的质量
外在方法 内在方法
内在的 两种评判指标
WSS
BSS
在这里插入图片描述

层次聚类方法

把数据划分成不同层上的组群,如层次。将数据对象组成层次结构或簇的“树”
两种典型的方法:
1.凝聚的层次聚类方法 自底向上的方法
2.分裂的层次聚类方法 自顶向下的方法
在这里插入图片描述
是正向、逆向的过程。

凝聚的层次聚类方法:
step1:每个点作为一个簇开始,每个样本的邻近性矩阵
step2:通过合并形成了一些簇
如何去评判邻近性
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值