回归-简述

回归是指预测的输出值为连续的实值.

1. 常用模型

#2. 数据集
回归问题的数据集通常是这样的, D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } , y i ∈ R D=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2), ... ,(\boldsymbol x_n,y_n) \}, y_i \in \mathbb R D={(x1,y1),(x2,y2),...,(xn,yn)},yiR.
对于离散的属性, 有两种处理方法:

  1. 该属性的离散值有大小关系
    如身高的<高,中,矮>转换为<0.0,0.5,1.0>
  2. 无大小关系
    假定该属性有k个取值,通常化为k维向量. 如瓜类的<西瓜,南瓜,黄瓜>对应为三个one-hot向量<(1,0,0),(0,1,0),(0,0,1)>

3. 评价方法

需要注意的是, 对一组样本(可见概率论与数理统计)的误差分析与对回归问题的误差分析是不一样的. 前者观察与期望值的偏离程度, 后者观察预测值与样本值的偏离程度.

y i ^ \hat {y_i} yi^ 表示预测值, y i y_i yi表示观测值, 即实际值.

  • residual error
    残差. 即 y i ^ − y i \hat {y_i} - y_i yi^yi.
    从残差分布中也能得到有用的信息, 如果分布成 白噪声 , 即残差是随机无规律的, 这种情况下最好. 否则可以认为是样本中有一些规律在预测中没有充分考虑到.

  • MAE
    Mean absolute error, WikiPedia
    M A E = 1 n ∑ i = 1 n ∣ y ^ i − y i ∣ MAE=\frac1n \sum_{i=1}^n|\hat y_i-y_i| MAE=n1i=1ny^iyi

  • MAPE
    Mean_absolute_percentage_error, wikipedia
    尽管看起来简单令人信服, 但不能除以0.

M A P E = 100 n ∑ i = 1 n ∣ y ^ i − y i y i ∣ MAPE=\frac{100}{n} \sum_{i=1}^n \left| \frac {\hat y_i-y_i}{y_i} \right| MAPE=n100i=1nyiy^iyi

  • MSE
    Mean squared error, Wikipedia
    M S E = 1 n ∑ i = 1 n ( y ^ i − y i ) 2 MSE=\frac1n \sum_{i=1}^n(\hat y_i-y_i)^2 MSE=n1i=1n(y^iyi)2

  • RMSE
    Root-mean-square deviation, Wikipedia
    RMSE (root-mean-square error) 跟 RMSD 是一个概念.
    R M S E = M S E RMSE=\sqrt{MSE} RMSE=MSE

  • R 2 R^2 R2
    Coefficient of Determination, wikipedia
    判定系数, 用 R 2 R^2 R2表示. 它表示回归曲线与样本点的拟合程度, 范围是[0,1] , 值越大拟合程度越好.
    R 2 = 1 − S S r e s S S t o t = 1 − ∑ ( y ^ i − y i ) 2 ∑ ( y i − y ˉ ) 2 R^2=1-\frac {SS_{res} } { SS_{tot}} \\ =1-\frac{\sum (\hat y_i -y_i)^2} {\sum (y_i - \bar y)^2} R2=1SStotSSres=1(yiyˉ)2(y^iyi)2

  • 自创指标
    见参考[1], 对比总是猜均值的优越性.

参考

  1. 我的自创评价指标, Stack Exchange
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值