参考资料:python统计分析【托马斯】
1、带有标准估计技术的标准线性回归模型的主要假设如下:
(1)独立变量(即x)是已知的。
(2)有效性:最重要的是,你所分析的数据应该映射到你试图回答的研究问题上。这听起来很明显,但往往被忽视。例如:线性回归不能正确描述二次曲线。一个有效的模型的误差也应该是正态的。
(3)可加性和线性:回归模型最重要的数学假设是它的确定性成分是独立预测因子的线性函数。
(4)误差的等方差。
(5)独立变量值误差的独立性。
(6)独立变量的独立性。
2、让我们更详细地单独讨论如下:
(1)弱异质性。这本质上意味着预测变量x可以被视为固定值,而不是随机变量。例如,这意味着假设预测变量是无误差的,也就是说,它们不受测量误差的污染。虽然在许多环境中不现实,但放弃这种假设会导致模型中有错误的变量更为严重。
(2)有效性。如果选择了错误的模型,或者如果不符合某些假设,线性拟合将变得毫无意义。
(3)线性度。这意味着响应变量的平均值是参数(回归系数)和预测变量的线性组合。这种假设比最初看起来的限制要小得多。由于预测变量被视为固定值,线性度实际上只是对参数的限制。
预测变量本身是可以任意转换,实际上可以添加相同的潜在预测变量的多个副本,每个变量转换的形式都不同。这个技巧常在多项式回归中使用,其使用线性回归来将响应变量拟合为预测变量的任意多项式。这是线性回归成为非常强大的推断方法。实际上,诸如多项式回归的模型通常是“过于强大”的,因为它们往往会过拟合数据。因此,通常需要采用某种正则化来防止来自估计过程的不合理的解决方案。常见的例子是岭回归和Lasso回归。也可以使用贝叶斯线性回归,其性质或多或少可以免于过拟合的问题。
(4)方差齐性。这意味着不同的响应变量在其误差中具有相同的方差,而与预测变量的值无关。在实践中,如果响应变量可以大范围内变化,则该假设是无效的(即,误差是异方差的)。为了确定异质误差方差,或当残差模式违反同质性的模型假设时(对于x的所有点,误差在“最佳拟合线”周围都是相同的变量),应该谨慎地在残差与预测值之间寻找“扇形效应”。这就是说,当与预测结果画在一起的时候,残差的平方或绝对值将有系统化的变化。误差不会在回归线上均匀分布。
实际上,残差出现聚集,并沿着回归线上较大值和较小值得预测图分散开来,那么模型的均方误差将是错误的。例如:通常平均值大的响应变量将具有比均值较小的响应变量更大的方差。
(5)误差的独立性。这假设响应变量的误差彼此不相关。一些方法(例如广义最小二乘法)能够处理相关的误差,尽管除非使用某种正则化来将模型偏置为不相关误差的假设,它们通常需要明显更多的数据。贝叶斯线性回归是处理这个问题的一般方法。
(6)对于标准最小二乘估计方法,设计矩阵X必须具有列满秩p;否则,我们在预测变量中有一个称为多重共线性的条件。它可以通过有两个或更多个完全相关的预测变量来触发。如果与要估计的参数的数量相比,可用的数据太少,这种情况也可能发生。在多重共线性的情况下,参数向量β将不能被确定,它没有唯一的解决方案。用于拟合具有多重共线性的线性模型的方法已经被开发出来了。请注意,用于参数估计的计算量较高的迭代算法,并不会受此问题的影响,实际上,处理分类值得预测变量时,常常对每个可能的类别引入单独的指示预测变量,这不可避免地引入了多重共线性。
3、线性回归模型结果的解释
对于回归系数b_i的解释是:当其他协变量被固定时,对于x_i的单位变化时,y的期望变化,即y对x_i的偏导数的期望值。这有时被称为x_i对y的单独效应。
解释回归结果的时候必须注意,因为有的回归量在其他变量不能保持固定的时候,不允许边际改变(如哑变量,或截距项,和多项式拟合)
4、Bootstrapping
另一种类型的建模方法是bootstrapping。有时我们有描述一个分布的数据,但不知道它是什么类型的分布。如果我们想要找出例如平均值的置信度,那我们该怎么做?
答案是bootstrapping。bootstrapping是一种重采样的方法,即从初始样本中重复抽取额外的样本,以提供其可变性的估计。在初始样本分布未知的情况下,bootstrapping是特别有用的,因为它提供了关于分布的信息。