山东大学数据仓库数据挖掘知识点整理

最新推荐文章于 2023-05-28 23:53:45 发布

NewtonLoop

最新推荐文章于 2023-05-28 23:53:45 发布

阅读量945

点赞数 2

分类专栏： sdu 文章标签：数据挖掘数据仓库算法

本文链接：https://blog.csdn.net/NewtonLoop/article/details/122738935

版权

sdu 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

关联规则
基于变量种类
布尔型关联规则
量化型关联规则
基于数据的抽象层次
单层的关联规则
多层的关联规则
基于规则中涉及到的数据的维数
单维关联规则
多维关联规则

关联规则挖掘分类
频繁项集挖掘
序列模式挖掘
结构模式挖掘

apriori算法
关联规则的挖掘过程分解为两个子问题

发现频繁项集
支持度
由频繁项集生成关联规则
置信度

apriori算法思想
是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代算法，通过k-项集用于探索（k+1）-项集。
Q：apriori算法得到的频繁项集是从频繁一项集开始还是只保留最大的？
在这里插入图片描述

fp树

每一item按照项出现次数用从大到小排列，删除非频繁项集的项
头表是链表的头结点，fffffff，bbbbbb这样的
挖掘方法
遍历头表，得到项以及其对应的前缀、在该前缀下出现的次数
合并1得到的共同前缀，看是否能达到最小支持度
优点：
完整性，不会打破任何事务数据中的长模式
紧凑性，减少不相关信息——非频繁项被删除；按频率递减排列——使得更频繁的项更容易在树结构中被共享。

apriori all

先得到频繁项集，各种长度的都要，跨元素的有序序列不算进来
其实是得到频繁-1序列中的各个项集
将1得到的序列映射到几个整数，频繁二项集要拆成三个的那种
对映射完的序列再求频繁序列
最后删除各种子集，只留最大的

gsp
在这里插入图片描述

找的都是序列

在这里插入图片描述

决策树
两类：基于信息论的方法；基于最小gini指标的方法
思想：在数据集D中找到一个最优特征（如何找？），然后从这个特征的选值中找一个最优候选值（怎么找？一般的二分类问题不需要）根据这个候选属性，将数据集D分成若干个子数据集，然后递归上述操作，直到满足指定条件为止。
在这里插入图片描述

ID3
思想：
以信息熵为度量，用于决策树的节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一颗熵值下降最快的决策树，到叶子结点处的熵值为0。

在这里插入图片描述

C4.5

在这里插入图片描述

贝叶斯分类
思想：基于贝叶斯定理，通过计算给定样本属于一个特定类的概率，来对给定样本进行分类。
两类决策：最小错误率贝叶斯决策，仅根据后验概率做出决策；最小风险贝叶斯决策，后验概率和损失函数结合进行决策。
在这里插入图片描述

查准率、查全率、F值

在这里插入图片描述

聚类
在这里插入图片描述

划分方法（分裂方法）
kmeans
在这里插入图片描述

kmediods

在这里插入图片描述

分层方法
在这里插入图片描述

层次凝聚：agnes
单链接完全链接组平均
在这里插入图片描述

层级分裂：diana
选择直径最大的簇进行处理
选择平均距离最大的点作为新的簇的起始点
在oldparty里找出到最近splinter group中的点距离不大于到old party中最近点的距离的点，将该点放入splinter group中

密度聚类：DBScan
思想
簇：基于密度可达性的最大的密度相连对象的集合
噪音：不在任何簇中的对象
边界对象：不是核心对象，但在簇中，即至少从一个核心对象直接可达
步骤：
任选一个点p
repeat：
得到所有从p关于Eps和MinPts密度可达的点
如果p是一个核心点，则找到一个聚类
如果p是一个边界点，没有从p密度可达的点，dbscan访问下一个点
直到数据库中所有点都被处理

聚类性能度量

簇内相似度越高越好，簇间相似度越低越好
外部指标：将聚类结果与某个参考模型进行比较，如专家划分的模型

内部指标：直接观察聚类结果而不利用参考模型
在这里插入图片描述

四种常见的离群点检测方法
统计
在这里插入图片描述

距离
在这里插入图片描述

密度
当数据集含有多种分布或数据集由不同密度子集混合而成时，数据是否离群不仅仅取决于它与周围数据的距离大小，而且与邻域内的密度状况有关。

用每个对象到第k个最近邻的距离大小来衡量密度

偏差
检查一组对象的主要特征

推荐算法
两类数据源：
基于协同过滤的推荐、基于内容的推荐

仅仅通过了解用户与物品之间的关系进行推荐，不会考虑到对物品本身的属性
可分成两类：基于用户的协同过滤、基于商品的协同过滤
基于用户的协同过滤

基本思想：基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户
计算方法：将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，找到k邻居之后，根据邻居的相似度权重以及他们对物品的偏好，预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表作为推荐。
排序计算方式是每个相似用户的相似度与商品推荐程度的累积求和
在这里插入图片描述

基于物品的协同过滤
思想：基于用户对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给他。
计算方法：所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度，得到物品的相似物品后，根据用户的历史偏好预测当前用户还没有表示偏好的物品，计算得到一个排序的物品列表作为推荐。
构建用户——物品倒排表

在这里插入图片描述