数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等,具体的介绍如下:
一、分类:
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
典型的分类算法:决策树算法、神经网络算法、贝叶斯算法
二、聚类:
聚类分析也称为细分,它基于一组属性对事例进行分组,同一个聚类中的或多或少有相似的属性值。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
三、关联:
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。
四、回归:
回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值确定输出。
回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形势表示出来,就是回归分析要解决的问题
五、预测:
预测技术采用数列作为输入,表示一系列时间值,然后应用各种能处理数据周期性分析、趋势分析、噪声分析的计算机学习和统计技术来估算这些序列未来的值。
你可以预测某一特定月份的销售。
六、序列分析:
发现离散序列中的模式,序列由一串离散值(或状态)组成,例如DNA序列,Web点击的url序列,购买商品的次序。序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。序列认为先买电脑后买扬声器与先买扬声器后买电脑是两个不同序列,关联则不同。主要的序列分析技术有Markov链。
图描述了某个新网站的Web点击序列。每个节点是一个URL地址每一条边标示两个URL地址的转移。没一个转移用一个权值标示,表示从一个Url地址转到另一个URL的概率
七、偏差分析:
偏差分析又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。
偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别
例子:信用卡欺诈行为检测、网络入侵检测、劣质产品分析