

简单分段线性回归的简介
以只有一个断点的一元分段线性回归为例,断点两侧描述为不同的一元线性回归式,并在断点处将两条回归线连接构成一个整体连续的响应模型。例如下式展示了某种简单样式:
式中x为自变量,y为响应变量,α是断点(阈值),ei是独立的、平均误差为零、方差恒定、有限绝对矩的相加误差。xi是第i个自变量的值,当xi≤α,即自变量未超过断点阈值时,通过线性回归式β0+βixi+ei计算响应变量的估计值yi;当xi>α,即自变量越过断点阈值时,通过线性回归式β0+βixi+β2(xi-α)+ei计算响应变量的估计值yi。断点α两侧的两个线性回归的回归系数(斜率)分别为β1和β1+β2,β2可以解释为两个线性回归在斜率的差异。
由于两个线性回归之间存在断点,使得整体分段回归的一阶导数不连续,可能在很多常用的数值优化程序中出问题。为了避免这个问题,通常会在断点阈值α处添加一小段平滑曲线等使两个线性回归的拟合线在x=α处相交,即让它们在断点处具有强制的连续性,保证整体分段回归的一阶导数连续。
注意的是,尽管其称为分段线性回归,各分段内的局部回归均由线性回归式构成,但由于断点两侧描述了不同形式的变量响应,因此分段回归整体上体现了非线性的响应模式。
关于更复杂的分段回归类型
上述以只有一个断点的简单一元分段线性回归为例作了简介,由此拓展,更复杂的分段回归情况体现在:
(1)断点可以存在N(N≥1)个,不局限只有一个断点阈值;
(2)各分段区间内的子回归可以为任意类型,不局限于局部线性,也可以是非线性响应;
(3)自变量可以存在多个,即多元回归,并且对于每个自变量而言,允许存在不同的断点数量、断点阈值等;
(4)大多数分段回归中,会在断点处将两侧回归线强制通过平滑连接以使整体连续,但某些分段回归中不采取此措施,会出现整体不连续的情况。
总之各有各的特点,但复杂类型并不常见,因为难以解读,有时反而会将问题复杂化。对于复杂情形&#x