数据挖掘竞赛

最新推荐文章于 2024-04-12 22:46:52 发布

weixin_42295319

最新推荐文章于 2024-04-12 22:46:52 发布

阅读量120

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_42295319/article/details/105080453

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

天池二手汽车预测赛_task1

数据挖掘评估性能度量
- 回归任务性能度量
- 分类任务性能度量

数据挖掘评估性能度量

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure).

回归任务性能度量

在预测任务中，给定样例集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ,其中y是示例x的真实标记.要评估学习其的性能，就要把学习器的预测结果f和真实标记y进行比较：

均方误差(mean squared error,MSE) 其计算公式为: $=1/m*{\sum_{m=1}^m}(f(x_i)-y_i)$
一般形式： $\int(f(x) - y)^2p(x)$
平均绝对误差（Mean Absolute Error,MAE） :平均绝对误差，其能更好地反映预测值与真实值误差的实际情况，其计算公式如下: ${{\sum_{m=1}^m}|f(x_i) - y_i|}$
R2(R-Square)的公式为残差平方和: $SS_{res} = {{\sum_{m=1}^m}(f(x_i)-y_i)^2}$
总平均值: $SS_{tot}= {{\sum_{m=1}^m}(f(x_i) - y_{mean} )^2}$
其中y_mean表示y的平均值得到表达式为：
$R^2 = 1 - \frac{ SS_{res}}{SS_{tot}}$
R2用于度量因变量的变异中可由自变量解释部分所占的比例，取值范围是 0~1，越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近，用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以也称为拟合优度(Goodness of Fit)的统计量。
yi表示真实值， f(xi)表示预测值， y_mean表示样本均值。得分越高拟合效果越好。

分类任务性能度量

1.错误率(error rate)与精度(accuracy) 这是分类任务中最常用的两种性能度量，既适用于二分类任务，也适用于多分类任务.错误率是分类错误的样本数占样本总数的比例.对样本D，分类错误率定义为:
${\sum_{i=1}^m}(f(x_i) \cancel= y_i )$
精度定义为:
${\sum_{i=1}^m}(f(x_i)=y_i)$
$= 1 - E (f; D)$

weixin_42295319

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘竞赛

天池二手汽车预测赛_task1数据挖掘评估性能度量回归任务性能度量分类任务性能度量数据挖掘评估性能度量对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure).回归任务性能度量在预测任务中，给定样例集D={(x1,y1),(x2,y2),...,(xm,ym)} D=\{(x_1,y_1),(x...
复制链接

扫一扫