回归-简述

最新推荐文章于 2022-08-15 08:07:05 发布

yichudu

最新推荐文章于 2022-08-15 08:07:05 发布

阅读量609

点赞数

分类专栏：分类与回归文章标签： python 多进程 transformer

天天开心

本文链接：https://blog.csdn.net/chuchus/article/details/75216891

版权

11 篇文章 1 订阅

订阅专栏

回归是指预测的输出值为连续的实值.

1. 常用模型

#2. 数据集
回归问题的数据集通常是这样的, $D=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2), ... ,(\boldsymbol x_n,y_n) \}, y_i \in \mathbb R$ .
对于离散的属性, 有两种处理方法:

该属性的离散值有大小关系
如身高的<高,中,矮>转换为<0.0,0.5,1.0>
无大小关系
假定该属性有k个取值,通常化为k维向量. 如瓜类的<西瓜,南瓜,黄瓜>对应为三个one-hot向量<(1,0,0),(0,1,0),(0,0,1)>

需要注意的是, 对一组样本(可见概率论与数理统计)的误差分析与对回归问题的误差分析是不一样的. 前者观察与期望值的偏离程度, 后者观察预测值与样本值的偏离程度.

$\hat {y_i}$ 表示预测值, $y_i$ 表示观测值, 即实际值.

residual error
残差. 即 $\hat {y_i} - y_i$ .
从残差分布中也能得到有用的信息, 如果分布成白噪声 , 即残差是随机无规律的, 这种情况下最好. 否则可以认为是样本中有一些规律在预测中没有充分考虑到.
MAE
Mean absolute error, WikiPedia
$MAE=\frac1n \sum_{i=1}^n|\hat y_i-y_i|$
MAPE
Mean_absolute_percentage_error, wikipedia
尽管看起来简单令人信服, 但不能除以0.

$MAPE=\frac{100}{n} \sum_{i=1}^n \left| \frac {\hat y_i-y_i}{y_i} \right|$

MSE
Mean squared error, Wikipedia
$MSE=\frac1n \sum_{i=1}^n(\hat y_i-y_i)^2$
RMSE
Root-mean-square deviation, Wikipedia
RMSE (root-mean-square error) 跟 RMSD 是一个概念.
$RMSE=\sqrt{MSE}$
$R^2$
Coefficient of Determination, wikipedia
判定系数, 用 $R^2$ 表示. 它表示回归曲线与样本点的拟合程度, 范围是[0,1] , 值越大拟合程度越好.
$R^2=1-\frac {SS_{res} } { SS_{tot}} \\ =1-\frac{\sum (\hat y_i -y_i)^2} {\sum (y_i - \bar y)^2}$
自创指标
见参考[1], 对比总是猜均值的优越性.