r语言线性回归_R语言 | 分段线性回归及对分割点的评估选择及R计算

本文介绍了R语言中分段线性回归的概念,以一元分段线性回归为例,解释了如何处理断点问题以确保模型连续性。文章还探讨了分段线性回归在生态学、气候变化等多个领域的应用实例,并提供了R包SiZer和segmented执行分段线性回归的示例。
摘要由CSDN通过智能技术生成
a057cc2e848ba950873ecea06f3937fe.gif 分段线性回归及对分割点的评估选择及R计算 d798cba74e015c09d64454ec534c033f.gif 分段回归( piecewise regression ),顾名思义,回归式是“分段”拟合的。其灵活用于响应变量随自变量值的改变而存在多种响应状态的情况,二者间难以通过一种回归模型预测或解释时,不妨根据响应状态找到合适的断点位置,然后将自变量划分为有限的区间,并在不同区间内分别构建回归描述二者关系。 分段回归最简单最常见的类型就是分段线性回归( piecewise linear regression ),即各分段内的局部回归均为线性回归。

26587cbcff9dbf7b1e3dbcfbb2e1bfe1.png

   

简单分段线性回归的简介

以只有一个断点的一元分段线性回归为例,断点两侧描述为不同的一元线性回归式,并在断点处将两条回归线连接构成一个整体连续的响应模型。例如下式展示了某种简单样式:

f70f9b61d66d229b7836ccfce3d0ea33.png

式中x为自变量,y为响应变量,α是断点(阈值),ei是独立的、平均误差为零、方差恒定、有限绝对矩的相加误差。xi是第i个自变量的值,当xi≤α,即自变量未超过断点阈值时,通过线性回归式β0ixi+ei计算响应变量的估计值yi;当xi>α,即自变量越过断点阈值时,通过线性回归式β0ixi2(xi-α)+ei计算响应变量的估计值yi。断点α两侧的两个线性回归的回归系数(斜率)分别为β1和β12,β2可以解释为两个线性回归在斜率的差异。

由于两个线性回归之间存在断点,使得整体分段回归的一阶导数不连续,可能在很多常用的数值优化程序中出问题。为了避免这个问题,通常会在断点阈值α处添加一小段平滑曲线等使两个线性回归的拟合线在x=α处相交,即让它们在断点处具有强制的连续性,保证整体分段回归的一阶导数连续。

注意的是,尽管其称为分段线性回归,各分段内的局部回归均由线性回归式构成,但由于断点两侧描述了不同形式的变量响应,因此分段回归整体上体现了非线性的响应模式。

   

关于更复杂的分段回归类型

上述以只有一个断点的简单一元分段线性回归为例作了简介,由此拓展,更复杂的分段回归情况体现在:

(1)断点可以存在N(N≥1)个,不局限只有一个断点阈值;

(2)各分段区间内的子回归可以为任意类型,不局限于局部线性,也可以是非线性响应࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值