浅谈数据挖掘评估技术
前言:模型的性能评估是数据挖掘过程中重要的步骤,是模型能否投入到实际使用当中的一个重要环节。
一、数据挖掘评估概述
数据挖掘过程中需要评估过程的内容和环节示意图
其中产生影响的步骤:
1数据:数据应用分层法进行分类收集和整理,应用概念层化方法处理数据。
2参数:利用模型比较技术来选取合适的模型,并确定模型的参数。
3数据挖掘技术:选择挖掘技术的时候,要考虑数据的特性,如果数据的分布不是正态分布,最好不要使用基于统计的数学模型。利用模型比较技术,选出离目标最好的结果。
4模型:监督的模型利用检验数据进行评估,使用分类正确率和混淆矩阵进行,再使用置信区间进行可信度评估。非监督模型利用计算每个聚类形成的簇中的实例与该簇中心的误差平方作为簇的质量的度量。
5检验集:随机抽取数据,确保数据分布。
评估工具
名称 | 内容 | 作用 |
混淆矩阵和分类正确率 | 利用二维表中的对角线元素的总和/总的元素个数,计算模型检验集的正确率 | 直观给出模型检验集分类正确或错误的情况。 |
统计学方法 | 1均值和标准差 | 定义数值数据的一个整体 |
2总体分布-正态分布、指数分布、Gamma分布等, | 可以假定数据挖掘模型的的数值属性,并评估数据挖掘模型的性能。 | |
3正态分布和样本均值 | 由于样本均值的总体是正态分布的,并且标准误差是总体方差的估计。 | |
4假设检验和z检验 | 假设检验是判断样本与样本、样本与总体之间的差异是由抽样误差引起的还是本质差别造成的。Z检验对样本均值与总体均值、两个样本均值之间是否存在显著性差异进行检验。 | |
监督和非监督技术互为评估 | 监督学习模型能够分类和预测具有定义明确的分类;非监督学习模型利用某种相似度量方法对实例进行自然聚类。 | 评估对方或者作为评估对方的方法补充 |
评估监督学习模型
名称 | 方法 | 功能 |
评估分类类型输出模型 | 检验集分类正确率和双类混淆矩阵 | 通过计算评估分类模型的价值 |
评估数值型输出模型 | 使用平均绝对误差、均方误差和均方根误差。 | 通过MAE、MSE、RMS的计算评估数值型输出模型的价值 |
计算检验集置信区间 | 计算置信区间的过程(1)设检验集样本大小为n,检验集错误率为E。(2)计算样本方差(3)计算标准误差SE(4)计算置信水平。 | 通过上述的计算,判断分类错误率的置信区间 |
监督聚类技术的评估作用 | (1)将监督建模使用的训练集作为非监督聚类的训练集(2)度量聚类形成的簇的质量 | 评估监督类学习模型 |
上面我们谈了如何评估一个监督的学习模型,接下来我们讲述不同的监督徐熙模型之间的比较方法:
1使用Lift比较模型
Lift度量了一个偏差样本内的类C的期望集中度相对于总体内的C的集中度的百分比的变化。Lift用来评估一个有指导的分类或预测模型是否有效。评估不同监督模型之间的性能优越度。
2通过假设检验比较模型
通过假设检验来比较两个用同样训练集创建的有指导学习模型。
说完模型之间的评估技术,接下来是对于属性的评估
名称 | 技术 | 工具 | 作用 |
数值型属性的冗余检查 | 相关系数度量两个数值型属性之间的线性相关程度 | 1 MS excel的CORREL函数 2 使用散点图检查属性相关性 | 1对比两个属性之间的相关度 2除了观察线性相关度还有曲线相关度。 |
数值属性显著性的假设检验 | 假设检验 | 计算显著性分数Z | 判断该属性的重要程度 |
以上就是数据挖掘过程中涉及的内容,应该使用什么样的方法来进行评估,建立出最优模型。