数据模式包括:特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析等。
任务可以分为两类:描述性和预测性数据。
数据特征化:
汇总所研究类的数据。
数据区分:
将目标类一个或多个可比较类进行比较。
频繁模式挖掘、关联和相关性:
频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以用关联规则表示如何判断模式是否频繁,有两个基本的度量:
支持度(support):该模式在所有被考察的对象中的占比,表示了该模式(规则)的有用性;
置信度(cofidence):由规则的前因推出后果的可信度,表示了规则的确定性;
设规则为A->B,则支持度和置信度可以表示如下:
support(A->B) = P(AUB)
confidence(A->B) = P(A|B)
决定关联规则是否丢弃的条件就是看最小支持度阙值和最小置信度阙值是否满足。
用于预测的分类与回归:
分类就是将指定的数据归入特定的分类的过程。分类可以使用如:分类规则、决策树、数学公式或者神经网络。
回归用来预测趋势,以建立模型。
而相关分析通常是在分类与回归之前进行,以确定哪些属性对结果的影响比较在,哪些对结果没有影响等,以更精确的得到预测的结果。
例如对于图书,可以进行分类,如:好书、一般的书和差书,甚至根据特定的规则,将类别标签分的更细。至于分类的方法,在后面的章节中会有更详细的描述。
聚类分析:
在没有特定的标记之前,可以使用聚类产生类标号。对象根据最大化类内的相似性,最小化类间的相似性的原则进行聚类或分组。
离群点分析:
通常的应用对聚集在一起的点会更感兴趣,但是某些特定的应用中,会对离群的点进行分析,比如欺诈检测、诈骗识别等。