一.概念:
数据挖掘:运用基于计算机的方法,从数据中获得有用之时的整个过程。
两个基本目标:预测和描述。
数据挖掘的基本任务:(1)分类 (2)回归 (3)聚类 (4)总结概括 (5)关联建模 (6)变化和偏差检测
数据挖掘的过程: 陈述问题,阐明假设->收集数据->预处理数据->模型评估(挖掘数据)->解释模型,得出结论
数据仓库的开发过程概括为3个阶段:建模、构建和部署
完成数据挖掘所耗费的精力:数据准备>商业目标>数据挖掘>巩固结果
二:数据准备
2.1 原始数据的表示
数据样本是数据挖掘的基本组成部分。每个样本都用几个特征来描述,每个特征都用不同类型的值。两种常见的类型数值型和分类型。
数值型值包括实型变量和整型变量,如年龄、速度或长度。数值型特征有两个重要的属性:其值有顺序关系和距离关系。
分类型(长叫做符号型)变量没有上述两种关系,分类型变量的两个值可以相等或不等。它们只建立一种等同关系,例如:眼睛颜色、性别、国籍。
具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。
另一种基于变量值的变量分类方法是,根据它是连续性变量还是离散型变量来分类。连续型变量也称为定量型或度量型变量。在大型数据集
中