现代世界是一个数据驱动的世界。
现代科学和工程建立在用“首要原则模型”来描述物理、生物和社会科学系统的基础上。这种方法从基础的科学模型入手,如牛顿运动定律和麦克斯韦的电磁公式,然后基于模型来建立各种机械工程和电子工程方面的各种应用。
运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程叫做数据挖掘。
数据挖掘是一个迭代的过程,在这个过程中,所取得的进步用“发现”来定义,这种发现是通过自动或者手工的方法获得的。
从大量的数据中搜寻有价值的、非同寻常的信息,是人和计算机合力的结果。它在人类描述问题和目标的知识与计算机的搜索能力之间寻求平衡,以求获得最好的效果。
数据挖掘的两个基本目标:预测和描述。
预测:涉及到使用数据集中已知的变量或域来预测其他我们所关心变量的未知或者未来的值;
预测性数据挖掘目标:生成已知数据集所描述的系统模型;
预测性数据挖掘后期:得出一种模型,以可执行代码来表示;
描述:找出描述可由人解释的数据模式;
描述性数据挖掘目标:在可用的数据集基础上生成新的、非同寻常的信息;
描述性数据挖掘后期:利用大型非数据集中的未知模式和关系获得对分析系统的理解。
数据挖掘的基本任务:
方法 | 基本目标 | 功能 |
分类 | 预测学习功能的发现 | 将一个数据项映射到几个预定义类中的一类 |
回归 | 预测学习功能的发现 | 将一个数据项映射到一个真实值预测变量 |
聚类 | 一种普遍的描述性任务 | 寻求以确定有限的一组类别或类来描述数据 |
总结概括 | 一种附加的描述性任务 | 寻找对数据集或子集的简单描述方法。 |
关联建模 | 发现描述变量之间或者数据集或其一部分的特征值之间的重要相关性的本地模型。 | |
变化和偏差检测 | 发现数据集中最重要的变化 |
数据挖掘的成功主要依赖于:设计者投入的精力,知识和创造力。