一、数据挖掘方法论
CRISP-DM方法论
1、商业理解;数据理解;数据准备;建立模型;模型评估;结果部署
商业理解:确定商业目标、确定数据挖掘目标;
数据理解:数据初步采集、数据描述、数据探索性分析;
数据准备:数据清洗、数据构建(衍生变量)、整合数据;
建立模型:选择建模技术、生成检验、建模、评估模型;
模型评估:评估结果、过程回顾;
结果部署:生成最终报告、项目回顾。
二、数据的统计描述
1、连续变量的统计描述
集中趋势描述:
算术均数(不适用严重偏态分布的变量)、中位数、几何均数(适用于原始数据不是对称分布,经过对数转换后呈对数分布的数据)、截尾均数(去掉两端的数据再计算的均数,通常两端去掉5%的数据)等。
2、离散趋势描述:
全距(极差)、方差和标准差(受极端值的影响,有明显的极端值不宜使用)、百分位数、四分位数和四分位距(方差和标准差不适用时可以使用)、变异系数(比较两组数据的离散程度大小,变异系数是没有单位的,cv=标准差/均值)
3、分布特征描述:
偏度(skewness):右拖尾为正偏,偏度>0,均数大于中位数;左拖尾为负偏,偏度<0,均数小于中位数。
峰度(kurtosis):峰度>0,峰的形状尖,<0,峰的形状平坦,=0,正态峰。
三、连续变量参数估计
1、点估计
矩估计和极大似然估计(估计值受异常值的影响显著、对数据得分布有一定的要求)、稳健估计(受异常值影响小)、Bootstrap法(与稳健估计类似)
2、区间估计
根据中心极限定理,当样本n足够大时(n>50),任何分布的抽样均数都会近似服从正态分布。
总体样本的标准差是未知的,用抽样样本的标准查代替