数据挖掘是一门多交叉研究领域。至于数据挖掘的理念和概念,本人没有兴趣去关注,我们只关注的是如何挖掘数据,挖掘知识的一些手段。

  1. 数据挖掘都有哪些东西可以挖掘呢?

    关联知识挖掘:反映了一个事件和其他事件之间的依赖或关联。(数据库中的关联是现实世界中事物联系的表现。)

    分类:分类技术是一种有监督的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识之间对应的知识。从这个意义上来说,数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类,进而可以预测未来数据的归类。(比如淘宝上有很多的评论,系统怎么知道你的评论是好评,是差评,是中评,还有垃圾邮件分类,怎么邮箱怎么知道是垃圾邮箱,还是不是垃圾邮箱。)

    聚类:聚类是把一组个体按照相似性归成若干类别,使同组的相似性很大,不同组的相异性很大。数据挖掘的目标之一是进行聚类分析。通过聚类技术可以对源数据库中的记录划分一些列有意义的子集。进而对数据的分析(一台商业销售企业,可能关心那类客户对指定的促销策略更感兴趣。这不就意味着要进行划分类了吗!)

    预测知识挖掘:是指由历史的和当前的数据产生的并能推测未来数据趋势的知识。这类知识可以被认为是以时间为关键属性的关联知识。从预测的主要功能上面看,主要是对未来数据进行数据的概念分类和趋势输出。(上面介绍的分类技术可以用于产生具有对未来数据进行归类的预测性知识。)统计学中的回归方法(就是一些拟合方程)等可以通过历史数据直接产生对未来数据预测的连续值。

    特异性知识挖掘:是源数据中所蕴含的极端特例或明显区别于其他数据的知识描述,它揭示出了事务偏离常规的异常规律。数据库中的数据有一些异常记录,从数据库中检测出这些数据所蕴含的特异知识是很有意义的。(例如,web站点发现那些区别于正常登陆行为的用户特点可以防止非法***等等)其实主要包括,孤立点分析,序列异常分析,特异规则发现。