统计学习(六):非线性模型

非线性模型

多项式回归

y i = β 0 + β 1 x i + β 2 x i 2 + β 3 x i 3 + ⋯ + β d x i d + ε i y_i=\beta_0+\beta_1x_i+\beta_2x_i^2+\beta_3x_i^3+\cdots+\beta_dx_i^d+\varepsilon_i yi=β0+β1xi+β2xi2+β3xi3++βdxid+εi

假设阶数为4,则在 x 0 x_0 x0 处的拟合值为:
f ^ ( x 0 ) = β ^ 0 + β ^ 1 x 0 + β ^ 2 x 0 2 + β ^ 3 x 0 3 + β ^ 4 x 0 4 \hat f(x_0)=\hat\beta_0+\hat\beta_1x_0+\hat\beta_2x_0^2+\hat\beta_3x_0^3+\hat\beta_4x_0^4 f^(x0)=β^0+β^1x0+β^2x02+β^3x03+β^4x04
最小二乘法可以得到每个系数 β ^ i \hat\beta_i β^i 的方差估计以及每一对系数估计值之间的协方差,通过这些值可以计算得到 f ^ ( x 0 ) \hat f(x_0) f^(x0) 的方差,这样 f ^ ( x 0 ) \hat f(x_0) f^(x0) 的逐点标准误差就是其方差的平方根。在每一个点计算相应位置的标准误差,然后画出拟合值曲线以及距拟合值曲线的两倍标准误差的曲线: f ^ ( x 0 ) ± 2 ⋅ s e [ f ^ ( x 0 ) ] \hat f(x_0)\pm2·se[\hat f(x_0)] f^(x0)±2se[f^(x0)]

可以将d固定在一些合理的低值,也可以通过交叉验证来选择d。

阶梯函数

X X X 的取值范围分成一些区间,每个区间拟合一个不同的常数。

具体的,在 X X X 取值空间上创建分割点 c 1 , c 2 , ⋯   , c K c_1,c_2,\cdots,c_K c1,c2,,cK,然后构造 K + 1 K+1 K+1 个新变量:
C 0 ( X ) = I ( X < c 1 ) C 1 ( X ) = I ( c 1 ≤ X < c 2 ) C 2 ( X ) = I ( c 2 ≤ X < c 3 ) ⋮ C K − 1 ( X ) = I ( c K − 1 ≤ X < c K ) C K ( X ) = I ( c K ≤ X ) C_0(X)=I(X<c_1)\\C_1(X)=I(c_1\leq X<c_2)\\C_2(X)=I(c_2\leq X<c_3)\\\vdots\\C_{K-1}(X)=I(c_{K-1}\leq X<c_K)\\C_K(X)=I(c_K\leq X) C0(X)=I(X<c1)C1(X)=I(c1X<c2)C2(X)=I(c2X<c3)CK1(X)=I(cK1X<cK)CK(X)=I(cKX)
其中 I ( ⋅ ) I(·) I() 是示性函数,条件成立时返回1否则返回0。由于 X X X 只能落在 K + 1 K+1 K+1 个区间中的某一个,于是对于任意的 X X X 的取值, C 0 ( X ) + C 1 ( X ) + ⋯ + C K ( X ) = 1 C_0(X)+C_1(X)+\cdots+C_K(X)=1 C0(X)+C1(X)++CK(X)=1。以 C 0 ( X ) , C 1 ( X ) , ⋯   , C K ( X ) C_0(X),C_1(X),\cdots,C_K(X) C0(X),C1(X),,CK(X) 为预测变量用最小二乘法来拟合线性模型:
y i = β 0 + β 1 C 1 ( x i ) + β 2 C 2 ( x i ) + ⋯ + β K C K ( x i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值