数据挖掘综合应用
这里我们的主要任务是将我们学过的数据挖掘相关的知识点联系起来,能够掌握数据挖掘的一般流程之后,可以完成数据挖掘综合应用实验。
一、数据挖掘流程
1.数据挖掘流程的概述
在实际的数据挖掘项目中,一般的流程如下:
2.需求分析
(1)业务理解:最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个信息转化为数据挖掘问题的定义和完成项目的初步计划。
(2)数据的获取和理解:数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
3.数据加载
首先我们需要将收集的数据集加载到内存中,才能进行进一步的操作。在Python基础课程中介绍过的Pandas提供了非常多的读取数据的函数,分别应用在各种数据源环境中,我们常用的函数为:
(1)read_csv:从 csv 格式文件加载数据
(2)read_table:从 table 文件中加载数据
(3)read_sql: 从数据库中加载数据
注意:
read_csv 与 read_table默认使用的分隔符不同
read_csv 与 read_table常用参数:
(1)seq/delimiter: 用来制定数据之间的分隔符,read_csv默认为逗号, read_table默认为\t(制表符)。
(2)header: 用来制定标题行,如果数据集中没有标题行,则制定为None。
(3)names: 读取数据时,可以通过names属性设置列索引。
(4)index_col:可以将数据集中的某一列(某几列)设置为行索引,通过index_col来进行指定。
(5)usecols:通过 usecols 参数来设置需要使用的列。
4.数据预处理
在数据预处理的过程中主要包括两个部分:数据清洗和特征预处理。
(1)数据清洗:
缺失值处理:一般包括去除或者填补两种方式。 填补方式主要有:均值、中位数、众数、回归分析等。
异常值处理:包括特殊值 (NA)、奇异值以及数据的不一致性(如年龄<0)。
不均衡数据处理: 主要针对一个样本的数据量远大于其它样本类别的数据量。(例