关闭

回归分析中的评价方法

标签: 回归分析回归预测评价Pearson相关系数均方误差均方根误差
9084人阅读 评论(0) 收藏 举报
分类:

       回归(Regression)不同于分类问题,在回归方法中我们预测一系列连续的值,在预测完后有个问题是如何评价预测的结果好坏,关于这个问题目前学术界也没有统一的标准。下面是我在论文中的看到的一些常用方法,希望对有缘人有用。

1 MAE(Mean Absolute Error)平均绝对差值

In statistics, the mean absolute error (MAE) is a quantity used to measure how close forecasts or predictions are to the eventual outcomes. The mean absolute error is given by

\mathrm{MAE} = \frac{1}{n}\sum_{i=1}^n \left| f_i-y_i\right| =\frac{1}{n}\sum_{i=1}^n \left| e_i \right|.

As the name suggests, the mean absolute error is an average of the absolute errors e_i = |f_i - y_i|, where f_i is the prediction and y_i the true value. Note that alternative formulations may include relative frequencies as weight factors.

注意:MAE与 MAD(Mean Absolute Difference)等价。此外,MAE很容易跟absolute deviation(绝对偏差)混淆,它们的定义很类似,但使用的场景完全不同;绝对偏差针对的就是一组数据,而MAD针对的两组数据(预测值一组,真实值一组)。

2 MSE(Mean Square Error)均方误差

If \hat{Y} is a vector of n predictions, and Y is the vector of the true values, then the (estimated) MSE of the predictor is: \operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2.

3 RMSE(Root Mean Square error)均方根误差

RMSE跟RMSD(Root-mean-square deviation)均方根偏差的定义等价,RMSE实际上就是MSE的平方根。

The RMSD of an estimator \hat{\theta} with respect to an estimated parameter \theta is defined as the square root of the mean square error:

\operatorname{RMSD}(\hat{\theta}) = \sqrt{\operatorname{MSE}(\hat{\theta})} = \sqrt{\operatorname{E}((\hat{\theta}-\theta)^2)}.

For an unbiased estimator, the RMSD is the square root of the variance, known as the standard error.

The RMSD of predicted values \hat y_t for times t of a regression's dependent variable y is computed for n different predictions as the square root of the mean of the squares of the deviations:

\operatorname{RMSD}=\sqrt{\frac{\sum_{t=1}^n (\hat y_t - y_t)^2}{n}}.

In some disciplines, the RMSD is used to compare differences between two things that may vary, neither of which is accepted as the "standard". For example, when measuring the average difference between two time series x_{1,t} and x_{2,t}, the formula becomes

\operatorname{RMSD}= \sqrt{\frac{\sum_{t=1}^n (x_{1,t} - x_{2,t})^2}{n}}. 


4 Normalized root-mean-square deviation归一化均方差跟偏差

The normalized root-mean-square deviation or error (NRMSD or NRMSE) is the RMSD divided by the range of observed values of a variable being predicted,or:

\mathrm{NRMSD} = \frac{\mathrm{RMSD}}{y_\max -y_\min}

The value is often expressed as a percentage, where lower values indicate less residual variance.

 coefficient of variation of the RMSD

The coefficient of variation of the RMSD, CV(RMSD), or more commonly CV(RMSE), is defined as the RMSD normalized to the mean of the observed values:

 \mathrm{CV(RMSD)} = \frac {\mathrm{RMSD}}{\bar y}.

It is the same concept as the coefficient of variation except that RMSD replaces the standard deviation.

-------------------------------------------------------------------------------------------------------------------------------------------

Correlation Coefficient(相关系数)

        相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。于是,著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation coefficient)。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。

       依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

       相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式:

简单相关系数:又叫相关系数或线性相关系数,一般用字母P 表示,用来度量两个变量间的线性关系。
复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
下面是两种在回归分析评价中常用的相关系数。
-------------------------------------------------------------------------------------------------------------------------------------

6  Pearson's Correlation Coefficient(皮尔逊相关系数)

  有的论文里叫COR(相关性)

相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。

如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

(1)、当相关系数为0时,X和Y两变量无关系。

(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。

(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度:
相关系数     0.8-1.0     极强相关
                 0.6-0.8     强相关
                 0.4-0.6     中等程度相关
                 0.2-0.4     弱相关
                 0.0-0.2     极弱相关或无相关

皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。

假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:

公式一:

皮尔逊相关系数计算公式

公式二:

皮尔逊相关系数计算公式

公式三:

皮尔逊相关系数计算公式

公式四:

皮尔逊相关系数计算公式

以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。

注意当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

(1)、两个变量之间是线性关系,都是连续数据。

(2)、两个变量的总体是正态分布,或接近正态的单峰分布。

(3)、两个变量的观测值是成对的,每对观测值之间相互独立。

7 concordance correlation coefficient(一致性相关系数)

In statistics, the concordance correlation coefficient measures the agreement between two variables, e.g., to evaluate reproducibility or for inter-rater reliability.

Definition:

Lawrence Lin has the form of the concordance correlation coefficient \rho_c as

\rho_c = \frac{2\rho\sigma_x\sigma_y}{\sigma_x^2 + \sigma_y^2 + (\mu_x - \mu_y)^2},

where \mu_x and \mu_y are the means for the two variables and \sigma^2_x and \sigma^2_y are the corresponding variances\rho is the correlation coefficient between the two variables.

This follows from its definition[1] as

\rho_c = 1 - \frac{{\rm Expected\ orthogonal\ squared\ distance\ from\ the\ diagonal\ }x=y}{{\rm Expected\ orthogonal\ squared\ distance\ from\ the\ diagonal\ }x=y{\rm \ assuming\ independence}}.

When the concordance correlation coefficient is computed on a N-length data set (i.e., two vectors of length N) the form is

\hat{\rho}_c = \frac{2 s_{xy}}{s_x^2 + s_y^2 + (\bar{x} - \bar{y})^2},

where the mean is computed as

\bar{x} = \frac{1}{N} \sum_{n=1}^N x_n

and the variance

s_x^2 = \frac{1}{N} \sum_{n=1}^N (x_n - \bar{x})^2

and the covariance

s_{xy} = \frac{1}{N} \sum_{n=1}^N (x_n - \bar{x})(y_n - \bar{y}) .

Whereas the ordinary correlation coefficient (Pearson's) is immune to whether the biased or unbiased versions for estimation of the variance is used, the concordance correlation coefficient is not. In the original article Lin suggested the 1/N normalization, while in another article Nickerson appears to have used the 1/(N-1), i.e., the concordance correlation coefficient may be computed slightly differently between implementations.

Relation to other measures of correlation

The concordance correlation coefficient is nearly identical to some of the measures called intra-class correlations, and comparisons of the concordance correlation coefficient with an "ordinary" intraclass correlation on different data sets found only small differences between the two correlations, in one case on the third decimal. It has also been stated that the ideas for concordance correlation coefficient "are quite similar to results already published by Krippendorff in 1970".

In the original article[1] Lin suggested a form for multiple classes (not just 2). Over ten years later a correction to this form was issued.

One example of the use of the concordance correlation coefficient is in a comparison of analysis method for functional magnetic resonance imaging brain scans.

  

Reference:

http://en.wikipedia.org/wiki/Concordance_correlation_coefficient

http://en.wikipedia.org/wiki/Correlation_coefficient

http://en.wikipedia.org/wiki/Root_mean_square_error

http://blog.csdn.net/wsywl/article/details/5727327


转载请注明转载自:http://blog.csdn.net/computerme/article/details/38871467










0
0
查看评论

机器学习——如何评价回归模型

本内容整理自coursera,欢迎交流转载。 如何定义损失我们用如下符号表示回归模型的损失(loss): L(y,fw^(x⃗ ))L(y,f_{\hat{w}}(\vec{x})) 举个栗子,我们可以使用局对误差或者方差表示 损失函数: L(y,fw^(x⃗ ))...
  • u014303046
  • u014303046
  • 2016-11-04 16:10
  • 389

机器学习模型的评价

机器学习是一门跨学科领域,涉及到统计学、计算机科学、最优化理论、信息理论、神经科学、理论物理以及其他领域。同时,机器学习也是一门非常年轻的学科。机器学习的大规模应用仅仅开始于过去二十年。当今,数据科学应用已成为一种职业。就像西部开发一样,拥有则无尽的机会,同时也有伴随着很多迷惑与问题。  ...
  • Losteng
  • Losteng
  • 2016-03-14 11:46
  • 3829

机器学习模型的评价指标和方法

http://blog.csdn.net/pipisorry/article/details/52574156衡量分类器的好坏对于分类器,或者说分类算法,评价指标主要有precision,recall,宏平均和微平均,F-score,pr曲线,ROC-AUC曲线,gini系数。分类模型的评估 ...
  • pipisorry
  • pipisorry
  • 2016-09-18 15:04
  • 10615

回归预测评估指标

回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标 MAE(Mean Absolute Error) 平均绝对误差 MAE=1n∑i=1n|fi−yi|MAE = \frac{1}{n}\sum_{i=1}^n|f_i-y_i| MSE(Mean Square Error) 平均平方差...
  • u013704227
  • u013704227
  • 2017-08-26 18:04
  • 1035

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱   本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation)、交叉校验(Cross-validation...
  • heyongluoyao8
  • heyongluoyao8
  • 2015-10-31 22:46
  • 38612

数据挖掘---分类评估指标和回归问题

1 什么是分类 在监督学习中,当输出变量Y取有限个离散值时,预测问题就是分类问题,这时输入变量X可以是离散的也可以是连续的 2 什么是分类器 监督学习中从数据中学习一个分类模型或分类决策树,称为分类器,分类器对新输入的数据进行输出的预测称为分类,当分类类别有多个时,称为多分类问题 3 分类的评价 ...
  • u012535605
  • u012535605
  • 2017-04-05 21:54
  • 469

回归评价指标

from:http://blog.csdn.net/heyongluoyao8/article/details/49408319 回归评价指标   与分类不同的是,回归是对连续的实数值进行预测,即输出值是连续的实数值,而分类中是离散值。例如,给你历史股票价格,公司与市场的一些信息,需要你...
  • xuxiatian
  • xuxiatian
  • 2017-02-24 09:57
  • 1484

(转)SSE,MSE,RMSE,R-square指标讲解

SSE(和方差、误差平方和):The sum of squares due to error MSE(均方差、方差):Mean squared error RMSE(均方根、标准差):Root mean squared error R-square(确定系数):Coefficient of d...
  • l18930738887
  • l18930738887
  • 2016-02-03 14:37
  • 23937

均方误差(MSE)和均方根误差(RMSE)和平均绝对误差(MAE)

MSE: Mean Squared Error 均方误差是指参数估计值与参数真值之差平方的期望值; MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。 MSE=1N∑t=1N(observedt−predictedt)2MSE=\frac{1}{N}...
  • reallocing1
  • reallocing1
  • 2017-02-21 19:24
  • 35042

【机器学习】可决系数R^2和MSE,MAE,SMSE

https://discussions.youdaxue.com/t/r-2/6582?u=beibei19890724 波士顿房价预测 首先这个问题非常好 其实要完整的回答这个问题很有难度,我也没有找到一个完整叙述这个东西的资料,所以下面主要是结合我自己的理解和一些资料谈一下r^2,mean ...
  • duxinyuhi
  • duxinyuhi
  • 2016-08-17 19:44
  • 4914
    个人资料
    • 访问:197747次
    • 积分:2913
    • 等级:
    • 排名:第14402名
    • 原创:86篇
    • 转载:6篇
    • 译文:0篇
    • 评论:75条
    文章分类
    最新评论