0.概述
数据挖掘导论涉及到的知识比较丰富,梳理下内容,为后面推荐系统设计做铺垫。
1.什么是数据挖掘
数据挖掘是在大型数据存储库中,自动发现有用信息的过程。数据挖掘技术用来探测大型数据库,发现先前未知的有用模式。
数据挖掘还可以预测未来观测结果,例如预测一位新的顾客是否会在一家百货公司消费100美元以上。
数据挖掘是数据库中知识发现(KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。
数据挖掘导论涉及到的知识比较丰富,梳理下内容,为后面推荐系统设计做铺垫。
数据挖掘是在大型数据存储库中,自动发现有用信息的过程。数据挖掘技术用来探测大型数据库,发现先前未知的有用模式。
数据挖掘还可以预测未来观测结果,例如预测一位新的顾客是否会在一家百货公司消费100美元以上。
数据挖掘是数据库中知识发现(KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。
数据可伸缩,数据的高维性,异种数据和复杂数据,数据的所有权与分布,非传统的分析。
1.预测任务。目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量,而用来做预测的属性称说明变量。
2.描述任务。目标是导出概况数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
预测建模(predictive modeling):涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。
关联分析(association analysis):用来发现描述数据中强关联特征的模式。
聚类分析(cluster analysis):旨在发现紧密相关的观测值组群。
异常检测(anomaly detection):识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。
分类法包括:决策树归纳,基于规则分类,最近邻分类,神经网络,支持向量机,朴素贝叶斯分类。
apriori算法,FP增长算法
聚类类型:层次的与划分的,互斥的、重叠的与模糊的,完全的与部分的。
簇类型:明显分离的,基于原型的,基于图的,基于密度的,共同性质的(概念簇)
基于原型的算法:K均值,自组织映射(SOM),期望最大化(EM),
基于密度的算法:DBSCAN,CLIQUE,DENCLUE
基于图的算法:MST(最小生成树)算法,Opossum算法,Chameleon算法,Jarvis-Patrick算法
凝聚的层次聚类:分两种产生层次聚类的方法——凝聚的,分裂的。
可伸缩的聚类:BIRCH,CURE
异常检测方法:基于模型的技术,基于临近度的技术,基于密度的技术,基于聚类的技术