第一、二章(统计检验模型)

本文详细介绍了数据挖掘方法论CRISP-DM,包括商业理解、数据理解、数据准备、建立模型、模型评估和结果部署等阶段。此外,讲解了数据的统计描述,如连续变量的集中趋势和离散趋势描述,以及分布特征描述。文章还涉及参数估计、分类变量描述、图表绘制、假设检验,如单变量和双变量检验,以及变量间的相关分析。最后,讨论了多元统计分析模型,如PCA、因子分析和判别分析等,并提到了数据挖掘分析模型,如树模型、神经网络和支持向量机等。
摘要由CSDN通过智能技术生成

一、数据挖掘方法论

CRISP-DM方法论

1、商业理解;数据理解;数据准备;建立模型;模型评估;结果部署

商业理解:确定商业目标、确定数据挖掘目标;

数据理解:数据初步采集、数据描述、数据探索性分析;

数据准备:数据清洗、数据构建(衍生变量)、整合数据;

建立模型:选择建模技术、生成检验、建模、评估模型;

模型评估:评估结果、过程回顾;

结果部署:生成最终报告、项目回顾。

 

二、数据的统计描述

1、连续变量的统计描述

集中趋势描述:

算术均数(不适用严重偏态分布的变量)、中位数、几何均数(适用于原始数据不是对称分布,经过对数转换后呈对数分布的数据)、截尾均数(去掉两端的数据再计算的均数,通常两端去掉5%的数据)等。

2、离散趋势描述:

全距(极差)、方差和标准差(受极端值的影响,有明显的极端值不宜使用)、百分位数、四分位数和四分位距(方差和标准差不适用时可以使用)、变异系数(比较两组数据的离散程度大小,变异系数是没有单位的,cv=标准差/均值)

3、分布特征描述:

偏度(skewness):右拖尾为正偏,偏度>0,均数大于中位数;左拖尾为负偏,偏度<0,均数小于中位数。

峰度(kurtosis):峰度>0,峰的形状尖,<0,峰的形状平坦,=0,正态峰。

三、连续变量参数估计

1、点估计

矩估计和极大似然估计(估计值受异常值的影响显著、对数据得分布有一定的要求)、稳健估计(受异常值影响小)、Bootstrap法(与稳健估计类似)

2、区间估计

根据中心极限定理,当样本n足够大时(n>50),任何分布的抽样均数都会近似服从正态分布。

总体样本的标准差是未知的,用抽样样本的标准查代替

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值