数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘相对于机器学习而言是一个更加偏向应用的领域。实际上,数据挖掘是一门涉及面很广的交叉学科,在处理各种问题时,只要我们清楚了业务逻辑那么就可以将问题转换为挖掘问题。
数据挖掘的处理过程一般包括数据预处理(ETL、数据清洗、数据集成等),数据仓库(可以是DBMS、大型数据仓库以及分布式存储系统)与OLAP,使用各种算法(主要是机器学习的算法)进行挖掘以及最后的评估工作。
简言之,数据挖掘是一系列的处理过程,最终的目的是从数据中挖掘出你想要的或者意外收获的信息。