1.数据挖掘含义
数据收集和存储技术的发展使得各组织机构能够积累海量的数据。但是,由于数据量太大,传统的数据分析工具和技术已经不再适用,因此,需要开发新的方法来对数据进行处理。
数据挖掘(data mining)就是利用一系列技术和方法从海量数据中找出隐藏于其中的潜在、有用的新知识的过程。在庞大的数据中找到有价值的知识,就好像在一堆沙子中淘金,因此被形象的称为data mining。
2.相关概念辨析
知识发现与数据挖掘:
数据挖掘是知识发现(knowledge discovery)的核心,是其中的一个步骤。完整的知识发现包含:①数据准备;②数据挖掘;③结果表达和解释
数据挖掘、机器学习和人工智能:
人工智能(artificial intelligence)指由人制造出来的机器所表现的智能。对于机器是否智能采用图灵测试进行判断。人工智能的核心是构建接近甚至超越人类的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。
机器学习(machine learning)是人工智能发展到一定阶段的必然产物,也是人工智能的一个分支。研究机器学习的目标就是让计算机系统拥有人的学习能力,从而实现人的“智能”。机器学习是数据挖掘的技术支撑之一,除此之外,数据挖掘还依靠数据库和数据仓库技术。
3.数据挖掘基本任务
数据挖掘的基本任务包括分类与预测、聚类分析、关联分析、异常检测等,大致可分为两类,即预测任务和描述任务。
预测任务:通过利用样本的属性和样本的值训练出的模型,结合某个特定样本属性来预测该样本对应的值。
描述任务:探索目标数据集中隐藏的联系或模式,可以简单地理解为寻找数据集中隐含的规律。
4.数据挖掘流程
→明确目标:首先需要熟悉业务