大致流程:问题分析(需求分析),数据预处理(数据清洗,数据集成,数据归约),特征选择,模型选择(方案设计),模型求解,模型评估,模型解释,写成报告形式,展示。
先撇开问题分析不说,数据预处理是数据分析挖掘最重要也是最基本的步骤。因为数据的质量往往能决定结果的质量。所以本篇先不谈各种数据挖掘算法,先做好数据预处理的基本功才是最重要的。
只做总结,不作细说
一、认识数据
首先对数据进行一些基本的描述性统计分析。
1.数据基本统计描述
关于中心趋势度量:均值,中位数,众数,中列数
给定一个属性,看他的值大部分落在何处。
1.1均值:
算术平均
调和平均
几何平均
截尾平均(为抵消少数极端值的影响,放弃高低极端后的均值)
1.2中位数
1.3众数
2.数据的散布(离散程度)
2.1极差
2.2四分位数
2.3四分位极差
四分位极差IQR:Q3-Q1(第3个四分位数-第1个四分位数),这个指标可以用于离群点的识别。识别可以的离群点的通常规则是,挑选落在第3个四分位数以上或第1个四分位数之下至少1.5*IOR处的值
2.4五数概括
2.5盒子图
注意盒子图的画法:盒子图会有两个“胡须”,这两个胡须一般是数据集的最小值和最大值,中位数用盒内