浅谈数据挖掘评估技术

最新推荐文章于 2024-08-19 00:09:01 发布

supereastsnow

最新推荐文章于 2024-08-19 00:09:01 发布

阅读量3.1k

点赞数 1

分类专栏：浅谈数据挖掘文章标签：数据仓库数据挖掘性能应用数据库

本文链接：https://blog.csdn.net/u012835097/article/details/52441253

版权

5 篇文章 0 订阅

订阅专栏

浅谈数据挖掘评估技术

前言：模型的性能评估是数据挖掘过程中重要的步骤，是模型能否投入到实际使用当中的一个重要环节。

一、数据挖掘评估概述

数据挖掘过程中需要评估过程的内容和环节示意图

其中产生影响的步骤：

1数据：数据应用分层法进行分类收集和整理，应用概念层化方法处理数据。

2参数：利用模型比较技术来选取合适的模型，并确定模型的参数。

3数据挖掘技术：选择挖掘技术的时候，要考虑数据的特性，如果数据的分布不是正态分布，最好不要使用基于统计的数学模型。利用模型比较技术，选出离目标最好的结果。

4模型：监督的模型利用检验数据进行评估，使用分类正确率和混淆矩阵进行，再使用置信区间进行可信度评估。非监督模型利用计算每个聚类形成的簇中的实例与该簇中心的误差平方作为簇的质量的度量。

5检验集：随机抽取数据，确保数据分布。

评估工具

名称	内容	作用
混淆矩阵和分类正确率	利用二维表中的对角线元素的总和／总的元素个数，计算模型检验集的正确率	直观给出模型检验集分类正确或错误的情况。
统计学方法	1均值和标准差	定义数值数据的一个整体
	2总体分布－正态分布、指数分布、Gamma分布等，	可以假定数据挖掘模型的的数值属性，并评估数据挖掘模型的性能。
	3正态分布和样本均值	由于样本均值的总体是正态分布的，并且标准误差是总体方差的估计。
	4假设检验和z检验	假设检验是判断样本与样本、样本与总体之间的差异是由抽样误差引起的还是本质差别造成的。Z检验对样本均值与总体均值、两个样本均值之间是否存在显著性差异进行检验。
监督和非监督技术互为评估	监督学习模型能够分类和预测具有定义明确的分类；非监督学习模型利用某种相似度量方法对实例进行自然聚类。	评估对方或者作为评估对方的方法补充

评估监督学习模型

名称	方法	功能
评估分类类型输出模型	检验集分类正确率和双类混淆矩阵	通过计算评估分类模型的价值
评估数值型输出模型	使用平均绝对误差、均方误差和均方根误差。	通过MAE、MSE、RMS的计算评估数值型输出模型的价值
计算检验集置信区间	计算置信区间的过程（1）设检验集样本大小为n，检验集错误率为E。（2）计算样本方差（3）计算标准误差SE（4）计算置信水平。	通过上述的计算，判断分类错误率的置信区间
监督聚类技术的评估作用	（1）将监督建模使用的训练集作为非监督聚类的训练集（2）度量聚类形成的簇的质量	评估监督类学习模型