关联规则
基于变量种类
布尔型关联规则
量化型关联规则
基于数据的抽象层次
单层的关联规则
多层的关联规则
基于规则中涉及到的数据的维数
单维关联规则
多维关联规则
关联规则挖掘分类
频繁项集挖掘
序列模式挖掘
结构模式挖掘
apriori算法
关联规则的挖掘过程分解为两个子问题
- 发现频繁项集
支持度 - 由频繁项集生成关联规则
置信度
apriori算法思想
是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代算法,通过k-项集用于探索(k+1)-项集。
Q:apriori算法得到的频繁项集是从频繁一项集开始还是只保留最大的?
fp树
- 每一item按照项出现次数用从大到小排列,删除非频繁项集的项
- 头表是链表的头结点,fffffff,bbbbbb这样的
挖掘方法 - 遍历头表,得到项以及其对应的前缀、在该前缀下出现的次数
- 合并1得到的共同前缀,看是否能达到最小支持度
优点:
完整性,不会打破任何事务数据中的长模式
紧凑性,减少不相关信息——非频繁项被删除;按频率递减排列——使得更频繁的项更容易在树结构中被共享。
apriori all
- 先得到频繁项集,各种长度的都要,跨元素的有序序列不算进来
其实是得到频繁-1序列中的各个项集 - 将1得到的序列映射到几个整数,频繁二项集要拆成三个的那种
- 对映射完的序列再求频繁序列
- 最后删除各种子集,只留最大的
gsp
找的都是序列
决策树
两类:基于信息论的方法;基于最小gini指标的方法
思想:在数据集D中找到一个最优特征(如何找?),然后从这个特征的选值中找一个最优候选值(怎么找?一般的二分类问题不需要)根据这个候选属性,将数据集D分成若干个子数据集,然后递归上述操作,直到满足指定条件为止。
ID3
思想:
以信息熵为度量,用于决策树的节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的决策树,到叶子结点处的熵值为0。
C4.5
贝叶斯分类
思想:基于贝叶斯定理,通过计算给定样本属于一个特定类的概率,来对给定样本进行分类。
两类决策:最小错误率贝叶斯决策,仅根据后验概率做出决策;最小风险贝叶斯决策,后验概率和损失函数结合进行决策。
查准率、查全率、F值
聚类
划分方法(分裂方法)
kmeans
kmediods
分层方法
层次凝聚:agnes
单链接 完全链接 组平均
层级分裂:diana
选择直径最大的簇进行处理
选择平均距离最大的点作为新的簇的起始点
在oldparty里找出到最近splinter group中的点距离不大于到old party中最近点的距离的点,将该点放入splinter group中
密度聚类:DBScan
思想
簇:基于密度可达性的最大的密度相连对象的集合
噪音:不在任何簇中的对象
边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达
步骤:
任选一个点p
repeat:
得到所有从p关于Eps和MinPts密度可达的点
如果p是一个核心点,则找到一个聚类
如果p是一个边界点,没有从p密度可达的点,dbscan访问下一个点
直到数据库中所有点都被处理
聚类性能度量
- 簇内相似度越高越好,簇间相似度越低越好
外部指标:将聚类结果与某个参考模型进行比较,如专家划分的模型
内部指标:直接观察聚类结果而不利用参考模型
四种常见的离群点检测方法
统计
距离
密度
当数据集含有多种分布或数据集由不同密度子集混合而成时,数据是否离群不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度状况有关。
用每个对象到第k个最近邻的距离大小来衡量密度
偏差
检查一组对象的主要特征
推荐算法
两类数据源:
基于协同过滤的推荐、基于内容的推荐
仅仅通过了解用户与物品之间的关系进行推荐,不会考虑到对物品本身的属性
可分成两类:基于用户的协同过滤、基于商品的协同过滤
基于用户的协同过滤
基本思想:基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户
计算方法:将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到k邻居之后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。
排序计算方式是每个相似用户的相似度与商品推荐程度的累积求和
基于物品的协同过滤
思想:基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他。
计算方法:所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户的历史偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。
构建用户——物品倒排表
结构化数据:高度组织 整齐格式化的数据 可以放入表格和电子表
非结构化数据:所有格式的办公文档、文本、图片、项目、xml、html、图像 音视频
大数据使用流程:数据采集(获取) 数据清洗 数据标注(预处理) 数据存储与管理 分析 解释
关键技术:数据采集 数据存储和管理 数据处理与分析 数据隐私和安全
HDFS 主从架构对文件系统进行管理,一个hdfs集群由唯一一个目录节点和数个数据节点组成
map reduce map是对独立元素组成概念上的列表 reduce是对列表元素的适当合并
nosql 列存储
云计算 将计算任务分布在大量计算机构成的资源池上,应用按需获取计算力、存储空间,信息服务;应用所需的资源从网络获取,提供资源都网络成为云。
mean-mode= 3 x (mean - median)
异众比率 非众数组的频数占总频数的比率
由数据矩阵得到相异性矩阵 在分类和聚类问题上
元数据
是定义数据仓库对象的数据
包含数据仓库表的属性、结构
dw开发特点
dw开发是从数据与需求出发
使用的需求不能在开发初期完全明确
dw的开发是一个不断循环的过程,是一个启发式的开发
olap特点
快速性 可分析性 多维性 信息性
立方体物化
为了确保快速的联机分析,有时希望预计算整个立方体
综合数据的过程称为预计算 即物化
多路数组聚集方法
BUC