指的是一个简单的线性回归模型,其中因变量 y t y_t yt被建模为时间的函数 t t t。模型为:
y t = μ + τ t + ϵ t y_t = \mu + \tau t + \epsilon_t yt=μ+τt+ϵt
其中:
-
y
t
y_t
yt表示
t
t
t时刻的观测值;
-
μ
\mu
μ为回归的截距项(
t
=
0
t = 0
t=0时
y
y
y的期望值),
-
τ
\tau
τ是斜率项,表示
t
t
t增加一个单位(趋势分量)时
y
y
y的变化,
-
ϵ
t
\epsilon_t
ϵt为误差项,表示由于模型中未包含的因素导致的与模型的随机偏差。
给定一个时间序列 x 1 , x 2 , . . . , x n x_{1}, x_{2}, ..., x_{n} x1,x2,...,xn和相应的时间索引 t = 1 , 2 , . . . , n t = 1, 2, ..., n t=1,2,...,n,可以使用普通最小二乘(OLS)回归估计 μ \mu μ和 τ \tau τ。OLS估计器将观测值与线性模型预测值之间的平方差之和最小化。
下面是如何计算 μ \mu μ和 τ \tau τ:
-
计算 t t t和 y y y的平均值(由’ x_list '表示):
t ˉ = 1 n ∑ i = 1 n t i \bar{t} = \frac{1}{n}\sum_{i=1}^{n} t_i tˉ=n1i=1∑nti
y ˉ = 1 n ∑ i = 1 n x i \bar{y} = \frac{1}{n}\sum_{i=1}^{n} x_i yˉ=n1i=1∑nxi -
用公式计算斜率( τ \tau τ):
τ = ∑ i = 1 n ( t i − t ˉ ) ( x i − y ˉ ) ∑ i = 1 n ( t i − t ˉ ) 2 \tau = \frac{\sum_{i=1}^{n} (t_i - \bar{t})(x_i - \bar{y})}{\sum_{i=1}^{n} (t_i - \bar{t})^2} τ=∑i=1n(ti−tˉ)2∑i=1n(ti−tˉ)(xi−yˉ) -
用公式计算截距( μ \mu μ):
μ = y ˉ − τ t ˉ \mu = \bar{y} - \tau \bar{t} μ=yˉ−τtˉ
如何计算
import numpy as np
# Example time series data, replace this with your actual data
x_list = np.array([5, 6, 7, 8, 9, 10]) # Placeholder for your observations
n = len(x_list) # The number of observations in the time series
t = np.arange(1, n + 1) # Time index from 1 to n
# Calculate means of t and x_list
t_mean = np.mean(t)
x_mean = np.mean(x_list)
# Calculate the slope (tau) using the formula
tau = np.sum((t - t_mean) * (x_list - x_mean)) / np.sum((t - t_mean) ** 2)
# Calculate the intercept (mu) using the formula
mu = x_mean - tau * t_mean
# Print the estimated parameters
print(f"Estimated mu (intercept): {mu}")
print(f"Estimated tau (slope): {tau}")
# Optional: Calculate and print the fitted values and residuals
fitted_values = mu + tau * t
residuals = x_list - fitted_values
print("Fitted values:", fitted_values)
print("Residuals:", residuals)
Why
方程是计算通过二维空间中的一组点的简单线性回归线的斜率的公式( τ \tau τ)。该公式来源于普通最小二乘法(OLS),这是统计建模中通过一组点找到最佳拟合线的标准方法。
这个公式背后的内在理论是基于最小化观测值与线性模型预测值之间的垂直距离(残差)的平方和。
以下是OLS方法的细分,以及该公式为何有效:
-
线性模型:简单的线性模型可以写成:
y = μ + τ ⋅ t + ε y = \mu + \tau \cdot t + \varepsilon y=μ+τ⋅t+ε
其中 y y y为因变量, t t t为自变量(本例中为时间), μ \mu μ为截距, τ \tau τ为斜率, ε \varepsilon ε为误差项。 -
目标函数:OLS的目标是找到使残差平方和(SSR)最小的 μ \mu μ和 τ \tau τ值,其中每个点的残差为观测值与模型预测值之间的差值:
SSR = ∑ i = 1 n ( y i − ( μ + τ ⋅ t i ) ) 2 \text{SSR} = \sum_{i=1}^{n} (y_i - (\mu + \tau \cdot t_i))^2 SSR=i=1∑n(yi−(μ+τ⋅ti))2 -
最小化SSR:为了使SSR相对于 τ \tau τ最小化,我们对 τ \tau τ求SSR的导数并置其为零:
∂ ∂ τ SSR = − 2 ∑ i = 1 n ( y i − μ − τ ⋅ t i ) ⋅ t i = 0 \frac{\partial}{\partial \tau} \text{SSR} = -2 \sum_{i=1}^{n} (y_i - \mu - \tau \cdot t_i) \cdot t_i = 0 ∂τ∂SSR=−2i=1∑n(yi−μ−τ⋅ti)⋅ti=0
求解 τ \tau τ得到了斜率的公式
τ = ∑ i = 1 n ( t i − t ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( t i − t ˉ ) 2 \tau = \frac{\sum_{i=1}^{n} (t_i - \bar{t}) (y_i - \bar{y})}{\sum_{i=1}^{n} (t_i - \bar{t})^2} τ=∑i=1n(ti−tˉ)2∑i=1n(ti−tˉ)(yi−yˉ)
其中 t ˉ \bar{t} tˉ为自变量 t t t的均值, y ˉ \bar{y} yˉ为因变量 y y y的均值。 -
公式背后的直觉:公式的分子表示自变量 t t t与因变量 y y y之间的协方差。分母是自变量 t t t的方差。斜率 τ \tau τ本质上是用 t t t的单位变化来衡量 y y y的变化,并用 t t t的可变性加权。
通过使用这个公式,我们得到了假设OLS假设满足的系数的最佳线性无偏估计量(BLUE)。这些假设包括线性、独立性、均方差(误差的恒定方差)和误差项的正态性。
τ \tau τ的公式是在误差均值为零并且与自变量不相关的假设下推导出来的。它是回归分析的基本结果之一,并作为更复杂模型的基础。
怎么用协方差解释最小二乘估计
协方差是衡量两个随机变量一起变化的程度,或者换句话说,两个变量共变的程度。如果我们看两个变量, t t t和 x x x, t t t和 x x x之间的协方差给了我们一个线性关系方向的指示。
协方差公式为:
Cov ( t , x ) = 1 n ∑ i = 1 n ( t i − t ˉ ) ( x i − x ˉ ) \text{Cov}(t, x) = \frac{1}{n} \sum_{i=1}^{n} (t_i - \bar{t}) (x_i - \bar{x}) Cov(t,x)=n1i=1∑n(ti−tˉ)(xi−xˉ)
其中:
-
t
i
t_i
ti为自变量在观测值
i
i
i处的值,
-
t
ˉ
\bar{t}
tˉ是自变量的均值,
-
x
i
x_i
xi为因变量在观测值
i
i
i处的值,
-
x
ˉ
\bar{x}
xˉ为因变量的均值
-
n
n
n是观测值的个数。
该公式计算每对观测值与各自均值的偏差的平均乘积。如果协方差为正,则意味着随着 t t t的增加, x x x也趋于增加。如果它是负的,当 t t t增加时, x x x趋于减少。
现在,对于线性回归斜率( τ \tau τ),我们使用修改版本的协方差公式:
τ = Cov ( t , x ) Var ( t ) \tau = \frac{\text{Cov}(t, x)}{\text{Var}(t)} τ=Var(t)Cov(t,x)
其中:
-
Var
(
t
)
\text{Var}(t)
Var(t)为
t
t
t的方差,即
t
t
t与其均值(
Var
(
t
)
=
1
n
∑
i
=
1
n
(
t
i
−
t
ˉ
)
2
\text{Var}(t) = \frac{1}{n} \sum_{i=1}^{n} (t_i - \bar{t})^2
Var(t)=n1∑i=1n(ti−tˉ)2)的方差平方的平均值。
这个 τ \tau τ公式本质上是通过自变量 t t t的方差量来标准化协方差。通过这样做,它告诉我们 t t t发生一个单位变化时 x x x发生了多少变化。这是回归线的斜率。
更直观的说法是:
协方差给了我们一个原始值,告诉我们两个变量之间关系的方向。
- 方差为我们提供了单个变量的传播(变量与其平均值相差多少)的度量。
- **回归线的斜率 τ \tau τ**是两个变量之间关系的归一化度量,考虑到自变量的扩散。
当协方差除以方差时,我们实际上是在用自变量的变异程度来缩放关系的度量。这给了我们一个独立于 t t t和 x x x单位的斜率,允许在不同的数据集或变量之间进行有意义的比较。
Cov 表示 t, x 同向变化程度, 除以 Var(t) 用来去掉量纲/标准化/消除 t 的值的影响,变成一个无量纲量