数据挖掘笔记

ljc_1999

于 2022-06-09 10:02:19 发布

阅读量534

点赞数

文章标签：数据挖掘人工智能机器学习

本文链接：https://blog.csdn.net/ljc_1999/article/details/125125078

版权

特征选择

Entropy

不确定性最高熵为1
信息熵公式

Information Gain = H(S) - H(S|X) 越大越好

如何选择多个属性中最优的属性 Subset Search

Branch and Bound分支定界
假设特征集合U，其真子集t，t的效能永远小于U的效能。

最好的属性的集合不一定是最好的subset。
本质上是一个优化问题。

特征提取

主成分分析 PCA

同样的物体从不同角度看，差别可能很大，这让我想起了规模中的一句话，在这个维度上的一个不起眼的特征，在另一个维度可能会很重要。
不同的特征提取保留的有效信息是不同的，不同的投影方式会损失不同的信息。去除数据之间相关性

Y=PX P旋转矩阵
S(Y) = [1/(n-1)]YY^T
YY^T = (PX)(PX)^T = PXX^TP^T
XX^T = QDQ^T
(n-1)S(Y) = PXX^TP^T = PQDQ^TP^T = (PQ)D(PQ)^T
P=Q^T
把原始数据投影到特征向量上（特征值最大的那几个特征向量）
对于多分类问题无法解决，会把多类数据杂糅到一起

箱图

四分位数Quartiles, 离群点outliners
四分位数Q₁(25^th百分位数percentile)，Q₃(75^th)
中间四分卫数极差Inter-quartile range:IQR=Q₃-Q₁
五数概括：min，Q₁，median，Q₃，max
盒图：盒两端为四分位数；中位数标记；添加胡须，离群点独立标出
离群点：通常是值高/低于四分位数1.5×IQR
盒子高度为IQR

数据集合的类型

记录Record

关系记录
数据矩阵
交易数据
文档数据：文档文本：词频向量

图and网络

万维网
社会或信息网络
分子结构Molecular Structures

有序的Ordered

视频数据：sequence of images

时间数据：时间序列time-series

 - 特殊的时序数据，其中每个记录都是一个时间序列（time series），即一段时间的测量序列
 - 时间自相关（temporal autocorrelation），即如果两个测量的时间很接近，这些测量的值通常非常相似

序列数据：交易序列transaction sequences
- 记录数据的扩充
- 时间次序重要，但具体时间不重要
- 例：事务序列
遗传序列数据
- DNA都由4种核苷酸A、T、G、C构造
- 没有时间标记，但与时序数据类似
- 重要的是在序列中的位置
空间，图像image and 多媒体multimedia：
- Spatial data:maps
- Image data
- Video data

数据类型

现实当中从数据库取出的数据类型可能是标称、数值、二元、序数等数据类型的组合。这种组合属性对象相似度最简单的方法是分别计算每个属性之间的相似度，然后取他们的平均值
对于取值非对称属性，分别计算相似度累加取均值方法失效。

挖掘挽联规则

关联规则挖掘
频繁项集挖掘算法
哪些模式是有趣的：模式评估方法

关联规则

关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到
典型的关联规则发现问题是对超市中的货篮数据进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯

最小支持度表示规则中的所有项在事务中出现的频度

关联规则挖掘

首先被Agrawal，Imielinski and Swami在1993年的SIGMOD会议上提出
在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构
频繁项集：数据库中频繁出现的项集，支持度大于某个阈值的项集（满足最小支持度的项集）
关联规则表示了项之间的关系：cereal，milk—> fruit 买谷类食品和牛奶的人也会买水果，商店可以把牛奶和谷类食品作特价品以使人们买更多的水果
频繁模式：数据库中频繁出现的模式（项集、序列，等等）

支持度、置信度

支持度(s)：

参考博文：

https://blog.csdn.net/DD18203614685/article/details/98057386
https://blog.csdn.net/weixin_43715458/article/details/94405860

支持度就是我们所有分析的交易中，某两种(若干种)商品同时(同单或者单独一次独立的交易)被购买的概率(比率)。选择支持度的目的就是找出同时被购买的商品，可以提高推荐转换率，从而增加收入。那么可以选出支持度最高的前n对

置信度(可信度，c)

购买x的人，同时购买y的概率
置信度

强关联规则

强规则通常定义为哪些满足最小支持度和最小可信度的规则（用户给定的阈值）

最小支持度、最小置信度

参考文章：https://www.zhihu.com/question/22574269/answer/274397886

根据训练数据和场景的接受程度来给定。这两个阈值给定的越大，得到的相关性item越好，但item数量也会越少。

发现关联规则

发现关联规则需要经历如下两个步骤：

找出所有频繁项集
由频繁项集生辰满足最小信任度阈值的规则

频繁项集挖掘算法

一般而言，一个包含k个项的数据集可能产生2^k-1个频繁项集，不包括空集在内

频繁项集产生

先验原理
其基本思想：如果一个项集是频繁的，则他的所有子集一定也是频繁的。反之，如果一个项集是非频繁的，则它的所有超集也一定是非频繁的。
一旦发现{a,b}是非频繁的，则整个包含{a,b}超集的子图可以被立即剪枝。即基于支持度的剪枝

Apriori算法的步骤

Apriori算法命名源于算法使用了频繁项集性质的先验知识
Apriori算法将发现关联规则的过程分为两个步骤：
- 通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集
- 利用频繁项集构造出满足用户最小信任度的规则
- 挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分
为了避免计算所有项集的支持度（实际上频繁项集只占很少一部分），Apriori算法引入潜在频繁项集的概念
若潜在频繁k项集的集合记为C_k，频繁k项集的集合记为L_k，m个项目构成的k项集的集合为C^k_m,则三者之间满足关系
构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”
潜在频繁k项集的集合C_k是指由有可能成为频繁k项集的项集组成的集合
以后只需计算潜在频繁项集的支持度，一定程度上减少了计算量

Apriori剪枝原则

如果一个项集不是频繁的，将不产生/测试它的超集！

扫描整个数据集，得到所有出现过的数据，作为候选频繁1项集。k=1，频繁0项集为空集。
挖掘频繁k项集
- 扫描数据计算候选频繁k项集的支持度
- 去除候选频繁k项集中支持度低于阈值的数据集，得到频繁k项集。如果得到的频繁k项集为空，则直接返回k-1项集的集合作为算法结果，算法结束。如果得到的频繁k项集只有一项，则直接返回频繁k项集的集合作为算法结果，算法结束。
- 令k=k+1，转入步骤2。

由频繁项集产生关联规则

根据公式产生关联规则（置信度）

对于每个频繁项集l，产生所有非空子集
对于l的每个非空子集s，如果大于最小置信度则输出规则s->(l-s)

怎样有效的从频繁项集中产生关联规则

一般，计算关联规则的置信度并不需要再次扫描事物数据库。规则{A、B、C}–>{D}的置信度为σ(ABCD)/ σ(ABC)因为这两个项集的支持度计数已经在频繁项集产生时得到，因此不必再扫描整个数据集
如果规则X->Y-X不满足置信度阈值，则形如X‘->Y-X’的规则一定也不满足置信度阈值

Gini指数

https://blog.csdn.net/qq_45060674/article/details/117304686
表示样本集合中一个随机选中的样本被分错的概率
Gini
Gini指数越小表示集合被选中的样本被分错的概率越小，即集合的纯度越高。反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0。