非线性模型
常用的时序统计模型(AR、ARMA、ARIMA),在建模思路上针对当前观测点的最近P个点和最近Q个点的误差值进行建模结构如下:
然而现实中,很多数据并不是按照线性关系发展的。很多时候我们是将非线性的数据通过一些方法(幂函数变换、倒数变换、指数变换、对数变换等)将其进行变换成为线性关系的问题,然后再去求解。常见的非线性回归预测的算法模型有:逻辑回归、树回归、神经网络模型等等。
逻辑回归
逻辑回归用来计算事件的概率。当因变量是状态可见时比如(真假、开关、上下等等),可使用逻辑回归。这里,Y 的取值范围为 [0,1],它可以由下列等式来表示:
p是事件发生的概率,这里的因变量使用了二项分布(对数log),这样可以将输出映射到【0,1】之间。通过使用最大似然估计来得到最佳的参数。
总结:
- 逻辑回归广泛用于分类问题。其不要求因变量和自变量之间是线性关系,它可以处理多类型关系,因为它对预测输出进行了非线性 log 变换。为了避免过拟合和欠拟合,我们应该涵盖所有有用的变量。实际中确保这种情况的一个好的做法是使用逐步筛选的方法来估计逻辑回归。
- 训练样本数量越大越好,因为如果样本数量少最大似然估计的效果就会比最小二乘法差。
- 自变量不应相互关联,即不存在多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。
- 如果因变量的值是序数,则称之为序数逻辑回归;如果因变量是多类别的,则称之为多元逻辑回归。
回归树
分类与回归树(Classification and Regression Tree, CART)是一种经典的决策树,可以用来处理涉及连续数据的分类或者回归任务。其主要思想是将自变量的取值空间切分为若干个块,并假设这个空间块内的所有样本的因变量取值接近或相同。见下图回归树:
假设已经将空间划分成M个区域 R 1 , R 2 , R 3... R m R1,R2,R3...Rm R1,R2,