社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系,对这些关系的观测,规律的研究,有利于提升对社会活动或自然现象的变化规律的理解,并进一步利用规律对活动或现象进行预测、干预。
变量之间的关系有些属于确定性的关系,也就是当其中某些变量的取值确定后,另外一些变量的取值可以完全确定。比如某商品售价 10 元一件,当销售量 x 确定后,销售额 y 可以通过方程 y = 10 x y = 10x y=10x 完全确定。
还有些变量之间虽然存在密切的联系,但是当其中某些变量取值确定后,另外的变量的取值并不能完全确定,而是一定范围内且存在一定的波动,或高于平均水平,或低于平均水平。比如广告的投入 x 与产品销售量 y 之前的关系,一般来说当广告投入 x 的增加的时候,销售量 y 会随之提高,当并不能完全确定销售额到会提到多少,其中的原因是产品的销售量与很多因素有关,比如竞品的销售情况,居民的收入情况,等等。
这种变量之间存在的密切但又不能完全确定的关系,称之为变量间的统计相关关系,或简称为相关关系。统计学中对统计相关关系的研究分为相关分析和回归分析两个分支。两种分析方法主要的差别是相关分析中的变量之间是平等的关系,而回归分析变量会分为因变量和自变量。
在回归分析中,我们关注的是给定变量 x 的条件下,变量 y 的取值的期望,我们称 E ( y ∣ x ) = f ( x ) E(y|x) = f(x) E(y∣x)=f(x) 为理论回归方程,因此传统回归分析方法中,设定 y 是随机变量,x 是非随机变量,x 称为自变量,y 称为因变量。
理论回归方程也可以表示成 y = f ( x ) + ϵ y = f(x) + \epsilon y=f(x)+ϵ. 这种表达方式显式的表达了 y 取值的两个组合部分,第一部分为 f ( x ) f(x) f(x) ,由自变量 x 完全确定,第二部分为随机变量 ϵ \epsilon ϵ,表示不确定的成分。不确定的原因可能来自:
- 自变量遗漏:未观测的原因可能是受限于获取成本,或则认知水平,导致一些关键变量的取值未被收集
- 函数 f ( x ) f(x) f(x) 选择偏差:选择的函数可能和真实的关系存在偏差
- 数据收集误差:数据收集过程中的种种误差,都会导致最终结果的随机性
- 其他因素
这些因素综合起来,导致因变量 y 取值的存在一定的随机性,不能依赖 x 的取值完全确定。当 f ( x ) f(x) f(x) 为线性函数时,即为线性回归,比如 f ( x ) = β 0 + β 1 x f(x) = \beta_0+\beta_1 x f(x)=β0+β1x 为一元线性回归方程。线性回归方程式最重要的一类回归方程,是因为一些结果在线性回归的基础上才会有更深刻的和普遍的性质。
回归分析中,重要的任务之一是,通过变量的观测值 ( x i , y i ) i ∈ [ n ] (x_i,y_i)i\in[n] (xi,yi)i∈[n], 对参数 β 0 , β 1 \beta_0,\beta_1 β0,β1 以及 E ( y ∣ x ) = β 0 + β 1 x E(y|x) = \beta_0+\beta_1 x E(y∣x)=β0+β1x 进行估计。并研究估计值 β ^ 0 , β ^ 1 , y ^ = β 0 ^ + β ^ 1 x \hat{\beta}_0,\hat{\beta}_1,\hat{y}=\hat{\beta_0} + \hat{\beta}_1x β^0,β^1,y^=β0^+β^1x 的性质,在分析估计方法之前,先介绍一下对参数估计值的衡量标准。
参数的估计方式一般会有多种,如果比较,选择适合的估计方法,是参数估计的重要目标,统计推断中对参数估计量的几个衡量指标有:
无偏性
参数 θ \theta θ 的估计值 θ ^ \hat{\theta} θ^,满足条件 E [ θ ^ ] = θ , θ ∈ D ( θ ) E[\hat{\theta}] = \theta, \theta\in \mathcal{D}(\theta) E[θ^]=θ,θ∈D(θ),则称 θ ^ \hat{\theta} θ^ 为参数 θ \theta θ 的无偏估计;将样本量为n时对应的估计量记为 θ ^ n \hat{\theta}_n θ^n,满足条件 $lim_{n\rightarrow \infin} E[\hat{\theta}_n] = \theta $, 则称 θ ^ \hat{\theta} θ^ 为参数 θ \theta θ 的渐进无偏估计。
比如 x ‾ = 1 n ∑ i x i \overline{x} = \frac{1}{n}\sum_ix_i x=n1∑ixi 就是对变量x的均值 E ( x ) E(x) E(x)的无偏估计,其中样本 x i i ∈ [ n ] x_i\quad i\in [n] xii∈[n] 为来自总体 x 的独立同分布样本,证明如下:
E [ x ‾ ] = E [ 1 n ∑ i x i ] = 1 n ∑ i E [ x i ] = 1 n ∑ i E [ x ] = E [ x ] E[\overline{x}] = E[\frac{1}{n}\sum_ix_i] \\= \frac{1}{n}\sum_iE[x_i] = \frac{1}{n}\sum_iE[x] \\= E[x] E[x]=E[n1∑ixi]=n1∑iE[xi]=n1∑iE[x]=E[x]
样本 x i x_i xi 独立采样自样本总体,因此 E [ x i ] = E [ x ] E[x_i] = E[x] E[xi]=E[x]. 可以看出 x ‾ , x i \overline{x}, x_i x,xi 都是总体均值 E [ x ] E[x] E[x] 的无偏估计。
E [ 1 n − 1 ∑ i ( x i − x ‾ ) 2 ] = 1 n − 1 E [ ∑ i ( x i 2 − 2 x i x ‾ + x ‾ 2 ) ] = 1 n − 1 E [ ∑ i x i 2 − 2 x ‾ ∑ i x i + n x ‾ 2 ] = 1 n − 1 E [ ∑ i x i 2 − n x ‾ 2 ] = 1 n − 1 [ ∑ i E [ x i 2 ] − n E [ x ‾ 2 ] ] = 1 n − 1 [ ∑ i ( V a r ( x i ) + E [ x i ] 2 ) − n ( V a r ( x ‾ ) + E [ x ‾ ] 2 ) ] = 1 n − 1 [ ∑ i ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) ] = 1 n − 1 [ n σ 2 + n μ 2 − σ 2 − n μ 2 ] = σ 2 E[\frac{1}{n-1}\sum_i(x_i-\overline{x})^2] = \frac{1}{n-1}E[\sum_i(x_i^2 - 2x_i\overline{x} + \overline{x}^2)] \\= \frac{1}{n-1}E[\sum_ix_i^2 - 2\overline{x}\sum_ix_i + n\overline{x}^2] = \frac{1}{n-1}E[\sum_ix_i^2-n\overline{x}^2]\\=\frac{1}{n-1}[\sum_iE[x_i^2]- nE[\overline{x}^2]] = \frac{1}{n-1}[\sum_i(Var(x_i)+E[x_i]^2) - n(Var(\overline{x}) + E[\overline{x}]^2)] \\= \frac{1}{n-1}[\sum_i(\sigma^2 + \mu^2)-n(\frac{\sigma^2}{n} + \mu^2)] = \frac{1}{n-1}[n\sigma^2 + n\mu^2-\sigma^2 - n\mu^2] \\= \sigma^2 E[n−11∑i(xi−x)2]=n−11E[∑i(xi2−2xix+x2)]=n−11E[∑ixi2−2x∑ixi+nx2]=n−11E[∑ixi2−nx2]=n−11[∑iE[xi2]−nE[x2]]=n−11[∑i(Var(xi)+E[xi]2)−n(Var(x)+E[x]2)]=n−11[∑i(σ2+μ2)−n(nσ2+μ2)]=n−11[nσ2+nμ2−σ2−nμ2]=σ2
1 n − 1 ∑ i ( x i − x ‾ ) 2 \frac{1}{n-1}\sum_i(x_i-\overline{x})^2 n−11∑i(xi−x)2 是总体方差 σ 2 \sigma^2 σ2 的无偏估计。
相合性
样本量为 n 时参数 θ \theta θ 的估计量记为 θ ^ n \hat{\theta}_n θ^n,满足条件,给定任意 ϵ > 0 , P ( ∣ θ ^ n − θ ∣ > ϵ ) → 0 ( n → ∞ ) \epsilon > 0, P(|\hat{\theta}_n-\theta| > \epsilon)\rightarrow 0( n\rightarrow \infin) ϵ>0,P(∣θ^n−θ∣>ϵ)→0(n→∞), 则称 θ ^ n \hat{\theta}_n θ^n 为参数 θ \theta θ 的相合估计。也就是随着样本量增大,估计值与真实值的误差依概率收敛于零。
正态渐近性
参数 θ \theta θ 的相合估计量 θ ^ n ( x 1 , x 2 , . . . , x n ) \hat{\theta}_n(x_1,x_2,...,x_n) θ^n(x1,x2,...,xn), 其中 n 表示样本量,若存在趋近于零的正数序列 σ n ( θ ) \sigma_n(\theta) σn(θ),满足条件 P ( θ ^ n − θ σ n ( θ ) ≤ y ) → Θ ( y ) ( n → ∞ ) P( \frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)} \le y)\rightarrow \Theta(y)(n\rightarrow \infin) P(σn(θ)θ^n−θ≤y)→Θ(y)(n→∞),也就是 θ ^ n − θ σ n ( θ ) ∼ N ( 0 , 1 ) ( n → ∞ ) \frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)}\sim \mathcal{N}(0, 1) (n\rightarrow \infin) σn(θ)θ^n−θ∼N(0,1)(n→∞),则称 θ ^ n \hat{\theta}_n θ^n 为参数 θ \theta θ 的正态渐近估计。
有效性
θ ^ 1 , θ ^ 2 \hat{\theta}_1, \hat{\theta}_2 θ^1,θ^2 为参数 θ \theta θ 的两个无偏估计,满足条件 V a r ( θ ^ 1 ) ≤ V a r ( θ ^ 2 ) Var(\hat{\theta}_1)\le Var(\hat{\theta}_2) Var(θ^1)≤Var(θ^2),则称 θ ^ 1 \hat{\theta}_1 θ^1 比 θ ^ 2 \hat{\theta}_2 θ^2 有效。
V a r ( x i ) = σ 2 Var(x_i) = \sigma^2 Var(xi)=σ2
V a r ( x ‾ ) = V a r ( 1 n ∑ i x i ) = 1 n 2 ∑ i V a r ( x i ) = σ 2 n Var(\overline{x}) = Var(\frac{1}{n}\sum_ix_i) = \frac{1}{n^2}\sum_iVar(x_i) = \frac{\sigma^2}{n} Var(x)=Var(n1∑ixi)=n21∑iVar(xi)=nσ2
V a r ( x ‾ ) ≤ V a r ( x i ) Var(\overline{x}) \le Var(x_i) Var(x)≤Var(xi)
其中 n 表示样本容量,可以看出 x ‾ , x i \overline{x},x_i x,xi 都是 E ( x ) E(x) E(x) 的无偏估计,但 x ‾ \overline{x} x 比 x i x_i xi 的方差较小,因此比较有效。
均方误差
θ ^ 1 , θ ^ 2 \hat{\theta}_1,\hat{\theta}_2 θ^1,θ^2 为参数 θ \theta θ 的两个无偏估计,若满足条件 E [ ( θ ^ 1 − θ ) 2 ] ≤ E [ ( θ ^ 2 − θ ) 2 ] E[(\hat{\theta}_1-\theta)^2] \le E[(\hat{\theta}_2-\theta)^2] E[(θ^1−θ)2]≤E[(θ^2−θ)2],
对局方误差满足以下性质:
E [ ( θ ^ − θ ) 2 ] = E [ θ ^ 2 − 2 θ θ ^ + θ 2 ] E[(\hat{\theta}-\theta)^2] = E[\hat{\theta}^2 - 2\theta\hat{\theta} + \theta^2] E[(θ^−θ)2]=E[θ^2−2θθ^+θ2]
= E [ θ ^ 2 ] − 2 θ E [ θ ^ ] + θ 2 =E[\hat{\theta}^2] - 2\theta E[\hat{\theta}]+ \theta^2 =E[θ^2]−2θE[θ^]+θ2
= V a r [ θ ^ ] + ( E [ θ ^ ] ) 2 − 2 θ E [ θ ^ ] + θ 2 =Var[\hat{\theta}] + (E[\hat{\theta}])^2 - 2\theta E[\hat{\theta}] + \theta^2 =Var[θ^]+(E[θ^])2−2θE[θ^]+θ2
= V a r [ θ ^ ] + ( E [ θ ^ ] − θ ) 2 =Var[\hat{\theta}] + (E[\hat{\theta}]-\theta)^2 =Var[θ^]+(E[θ^]−θ)2
无论是有偏估计还是无偏估计,估计量的均方误差又估计量的方差和估计量的偏差两部分组成。物品估计的偏差项为零。
我们以线性回归介绍参数估计问题。
线性回归
线性回归方程: y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ
观测样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1,y_1),(x_2,y_2),...,(x_n,y_n) (x1,y1),(x2,y2),...,(xn,yn)
如何对参数 β 0 , β 1 \beta_0,\beta_1 β0,β1 以及目标值 y y y 进行估计 ?下面介绍最小二乘估计和最大似然估计两种方法。
最小二乘估计
y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ
( x i , y i ) , i ∈ [ n ] (x_i,y_i),i \in [n] (xi,yi),i∈[n]
β ^ 0 , β ^ 1 = a r g m i n β 0 , β 1 Q ( β 0 , β 1 ) = a r g m i n β 0 , β 1 1 n ∑ i ( y i − β 0 − β 1 x i ) 2 \hat{\beta}_0,\hat{\beta}_1 = argmin_{\beta_0,\beta_1} Q(\beta_0, \beta_1)= argmin_{\beta_0,\beta_1}\frac{1}{n}\sum_i (y_i - \beta_0 - \beta_1 x_i)^2 β^0,β^1=argminβ0,β1Q(β0,β1)=argminβ0,β1n1∑i(yi−β0−β1xi)2
∂ Q ∂ β 0 ( β ^ 0 ) = 1 n ∑ i ( 2 β 0 + 2 ( β 1 x i − y i ) ) = 1 n [ 2 n β 0 + 2 β 1 ∑ i x i − 2 ∑ i y i ] = 2 β 0 + 2 β 1 x ‾ − 2 y ‾ = 0 \frac{\partial Q}{\partial \beta_0}(\hat{\beta}_0) =\frac{1}{n}\sum_i(2\beta_0 + 2(\beta_1 x_i - y_i))=\frac{1}{n}[2n\beta_0 + 2\beta_1\sum_ix_i - 2\sum_iy_i] = 2\beta_0 + 2\beta_1\overline{x} - 2\overline{y}= 0 ∂β0∂Q(β^0)=n1∑i(2β0+2(β1xi−yi))=n1[2nβ0+2β1∑ixi−2∑iyi]=2β0+2β1x−2y=0
∂ Q ∂ β 1 ( β ^ 1 ) = 1 n ∑ i [ 2 x i 2 β 1 + 2 x i ( β 0 − y i ) ] = 1 n [ 2 β 1 ∑ i x i 2 + 2 β 0 ∑ i x i − 2 ∑ i x i y i ] = 0 \frac{\partial Q}{\partial \beta_1}({\hat\beta}_1)=\frac{1}{n}\sum_i[2x_i^2\beta_1 + 2x_i(\beta_0-y_i)] = \frac{1}{n}[2\beta_1\sum_ix_i^2 + 2\beta_0\sum_ix_i-2\sum_ix_iy_i]= 0 ∂β1∂Q(β^1)=n1∑i[2xi2β1+2xi(β0−yi)]=n1[2β1∑ixi2+2β0∑ixi−2∑ixiyi]=0
β 0 = y ‾ − β 1 x ‾ \beta_0 = \overline{y}-\beta_1\overline{x} β0=y−β1x
1 n β 1 ∑ i x i 2 + ( y ‾ − β 1 x ‾ ) x ‾ − 1 n ∑ i x i y i = 0 \frac{1}{n}\beta_1\sum_ix_i^2+(\overline{y}-\beta_1\overline{x})\overline{x}-\frac{1}{n}\sum_ix_iy_i = 0 n1β1∑ixi2+(y−β1x)x−n1∑ixiyi=0
β 1 = ∑ i x i y i − n x ‾ y ‾ ∑ i x i 2 − n x ‾ 2 = ∑ i x i y i − y ‾ ∑ i x i ∑ i x i 2 − x ‾ ∑ i x i = ∑ i x i ( y i − y ‾ ) ∑ i x i ( x i − x ‾ ) = ∑ i x i ( y i − y ‾ ) − x ‾ ∑ i ( y i − y ‾ ) ∑ i x i ( x i − x ‾ ) − x ‾ ∑ i ( x i − x ‾ ) = ∑ i ( x i − x ‾ ) ( y i − y ‾ ) ∑ i ( x i − x ‾ ) 2 = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i \beta_1 = \frac{\sum_ix_iy_i-n\overline{x}\overline{y}}{\sum_ix_i^2 - n\overline{x}^2} = \frac{\sum_ix_iy_i - \overline{y}\sum_ix_i}{\sum_ix_i^2 - \overline{x}\sum_ix_i} = \frac{\sum_ix_i(y_i-\overline{y})}{\sum_ix_i(x_i - \overline{x})} = \frac{\sum_ix_i(y_i-\overline{y})-\overline{x}\sum_i(y_i-\overline{y})}{\sum_ix_i(x_i-\overline{x})-\overline{x}\sum_i(x_i-\overline{x})} = \frac{\sum_i(x_i-\overline{x})(y_i-\overline{y})}{\sum_i(x_i-\overline{x})^2}=\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i β1=∑ixi2−nx2∑ixiyi−nxy=∑ixi2−x∑ixi∑ixiyi−y∑ixi=∑ixi(xi−x)∑ixi(yi−y)=∑ixi(xi−x)−x∑i(xi−x)∑ixi(yi−y)−x∑i(yi−y)=∑i(xi−x)2∑i(xi−x)(yi−y)=∑i(xi−x)21∑i(xi−x)yi
β ^ 0 = y ‾ − β ^ 1 x ‾ \hat{\beta}_0 = \overline{y} - \hat{\beta}_1\overline{x} β^0=y−β^1x
β ^ 1 = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i \hat{\beta}_1 = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i β^1=∑i(xi−x)21∑i(xi−x)yi
最小二乘估计的无偏性证明 :
E [ β ^ 1 ] = E [ 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i ] = 1 ∑ i ( x i − x ‾ ) 2 E [ ∑ i ( x i − x ‾ ) y i ] = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) E ( y i ) = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) ( β 0 + β 1 x i + E ( ϵ i ) ) = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) x i β 1 = β 1 E[\hat{\beta}_1] = E[\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i] \\= \frac{1}{\sum_i(x_i-\overline{x})^2}E[\sum_i(x_i-\overline{x})y_i] = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})E(y_i)\\= \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})(\beta_0 + \beta_1x_i + E(\epsilon_i))\\=\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})x_i\beta_1 = \beta_1 E[β^1]=E[∑i(xi−x)21∑i(xi−x)yi]=∑i(xi−x)21E[∑i(xi−x)yi]=∑i(xi−x)21∑i(xi−x)E(yi)=∑i(xi−x)21∑i(xi−x)(β0+β1xi+E(ϵi))=∑i(xi−x)21∑i(xi−x)xiβ1=β1
可以看出无偏性依赖假设 E [ ϵ i ] = 0 E[\epsilon_i] = 0 E[ϵi]=0
E [ β ^ 0 ] = E [ y ‾ − β ^ 1 x ‾ ] = E [ y ‾ ] − x ‾ E [ β ^ 1 ] = E [ ∑ i y i n ] − x ‾ β 1 = ∑ i E [ y i ] n − x ‾ β 1 = ∑ i ( β 0 + β 1 x i + E [ ϵ i ] ) n − x ‾ β 1 = β 0 E[\hat{\beta}_0] = E[\overline{y}-\hat{\beta}_1\overline{x}] \\ = E[\overline{y}] - \overline{x}E[\hat{\beta}_1] = E[\frac{\sum_iy_i}{n}] - \overline{x}\beta_1 \\= \frac{\sum_iE[y_i]}{n} - \overline{x}\beta_1 = \frac{\sum_i(\beta_0+\beta_1x_i+E[\epsilon_i])}{n} - \overline{x}\beta_1=\beta_0 E[β^0]=E[y−β^1x]=E[y]−xE[β^1]=E[n∑iyi]−xβ1=n∑iE[yi]−xβ1=n∑i(β0+β1xi+E[ϵi])−xβ1=β0
无偏性同样依赖假设 E [ ϵ i ] = 0 E[\epsilon_i] = 0 E[ϵi]=0
E [ y ^ ] = E [ β ^ 0 + β ^ 1 x ] = E [ β 0 ^ ] + E [ β 1 x ] = β 0 + β 1 x = E [ y ] E[\hat{y}] = E[\hat{\beta}_0 + \hat{\beta}_1 x] = E[\hat{\beta_0}] + E[\beta_1x] = \beta_0 + \beta_1x = E[y] E[y^]=E[β^0+β^1x]=E[β0^]+E[β1x]=β0+β1x=E[y]
考察最小二乘估计的方差:
V a r ( β ^ 1 ) = V a r ( 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i ) = ( 1 ∑ i ( x i − x ‾ ) 2 ) 2 V a r ( ∑ i ( x i − x ‾ ) y i ) = ( 1 ∑ i ( x i − x ‾ ) 2 ) 2 ∑ i V a r ( ( x i − x ‾ ) y i ) = ( 1 ∑ i ( x i − x ‾ ) 2 ) 2 ∑ i ( x i − x ‾ ) 2 V a r ( y i ) = ∑ i ( x i − x ‾ ) 2 V a r ( y i ) ( ∑ i ( x i − x ‾ ) 2 ) 2 = ∑ i ( x i − x ‾ ) 2 σ 2 ( ∑ i ( x i − x ‾ ) 2 ) 2 = σ 2 ∑ i ( x i − x ‾ ) 2 = σ 2 l x x Var(\hat{\beta}_1) = Var(\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i) = (\frac{1}{\sum_i(x_i-\overline{x})^2})^2Var(\sum_i(x_i-\overline{x})y_i) \\ = (\frac{1}{\sum_i(x_i-\overline{x})^2})^2 \sum_iVar((x_i-\overline{x})y_i)= (\frac{1}{\sum_i(x_i-\overline{x})^2})^2 \sum_i(x_i-\overline{x})^2Var(y_i)\\=\frac{\sum_i(x_i-\overline{x})^2Var(y_i)}{(\sum_i(x_i-\overline{x})^2)^2} = \frac{\sum_i(x_i-\overline{x})^2\sigma^2}{(\sum_i(x_i-\overline{x})^2)^2}=\frac{\sigma^2}{\sum_i(x_i-\overline{x})^2} = \frac{\sigma^2}{\mathcal{l}_{xx}} Var(β^1)=Var(∑i(xi−x)21∑i(xi−x)yi)=(∑i(xi−x)21)2Var(∑i(xi−x)yi)=(∑i(xi−x)21)2∑iVar((xi−x)yi)=(∑i(xi−x)21)2∑i(xi−x)2Var(yi)=(∑i(xi−x)2)2∑i(xi−x)2Var(yi)=(∑i(xi−x)2)2∑i(xi−x)2σ2=∑i(xi−x)2σ2=lxxσ2
引入假设 y i y_i yi相互独立,且 V a r ( y i ) = V a r ( ϵ i ) = σ Var(y_i) = Var(\epsilon_i) = \sigma Var(yi)=Var(ϵi)=σ, 当样本量越大, V a r ( β ^ 1 ) Var(\hat{\beta}_1) Var(β^1)越小。
V a r ( β 0 ^ ) = V a r ( y ‾ − β ^ 1 x ‾ ) = V a r ( ∑ i y i / n − x ‾ 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i ) = 1 n 2 ∑ i V a r ( y i ) + x ‾ 2 l x x σ 2 = σ 2 n 2 + x ‾ 2 σ 2 l x x = ( 1 n 2 + x ‾ 2 l x x ) σ 2 Var(\hat{\beta_0}) = Var(\overline{y} - \hat{\beta}_1\overline{x}) = Var(\sum_iy_i/n-\overline{x}\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i) \\= \frac{1}{n^2}\sum_iVar(y_i) + \frac{\overline{x}^2}{\mathcal{l}_{xx}}\sigma^2 = \frac{\sigma^2}{n^2} + \frac{\overline{x}^2\sigma^2}{\mathcal{l}_{xx}} = (\frac{1}{n^2} + \frac{\overline{x}^2}{\mathcal{l}_{xx}})\sigma^2 Var(β0^)=Var(y−β^1x)=Var(∑iyi/n−x∑i(xi−x)21∑i(xi−x)yi)=n21∑iVar(yi)+lxxx2σ2=n2σ2+lxxx2σ2=(n21+lxxx2)σ2
当样本量越大, V a r ( β ^ 1 ) Var(\hat{\beta}_1) Var(β^1)越小。
V a r ( β ^ 0 + β ^ 1 x ) = V a r ( y ‾ − β ^ 1 x ‾ + β 1 ^ x ) = V a r ( y ‾ + ( x − x ‾ ) β ^ 1 ) = V a r ( ∑ i y i / n + ( x − x ‾ ) 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i = 1 n 2 V a r ( y i ) + ( x − x ‾ ) 2 l x x 2 ∑ i ( x i − x ‾ ) V a r ( y i ) = σ 2 n 2 + ( x − x ‾ ) 2 σ 2 l x x = ( 1 n 2 + ( x − x ‾ ) 2 l x x ) σ 2 Var(\hat{\beta}_0 + \hat{\beta}_1x) = Var(\overline{y} - \hat{\beta}_1\overline{x} + \hat{\beta_1}x) = Var(\overline{y} + (x-\overline{x})\hat{\beta}_1) \\= Var(\sum_iy_i/n+(x-\overline{x})\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i = \frac{1}{n^2}Var(y_i) + \frac{(x-\overline{x})^2}{l_{xx}^2}\sum_i(x_i-\overline{x})Var(y_i) \\=\frac{\sigma^2}{n^2} + \frac{(x-\overline{x})^2\sigma^2}{l_{xx}} = (\frac{1}{n^2} + \frac{(x-\overline{x})^2}{l_{xx}})\sigma^2 Var(β^0+β^1x)=Var(y−β^1x+β1^x)=Var(y+(x−x)β^1)=Var(∑iyi/n+(x−x)∑i(xi−x)21∑i(xi−x)yi=n21Var(yi)+lxx2(x−x)2∑i(xi−x)Var(yi)=n2σ2+lxx(x−x)2σ2=(n21+lxx(x−x)2)σ2
最大似然估计
ϵ ∼ N ( 0 , σ ) \epsilon \sim \mathcal{N}(0, \sigma) ϵ∼N(0,σ)
y i ∼ ( β 0 + β 1 x i , σ ) y_i \sim \mathcal(\beta_0 + \beta_1x_i, \sigma) yi∼(β0+β1xi,σ)
p ( y i ) = 1 2 σ e − ( y i − β 0 − β 1 x i ) 2 σ p(y_i) = \frac{1}{\sqrt{2\sigma}}e^{-\frac{(y_i-\beta_0-\beta_1x_i)^2}{\sigma}} p(yi)=2σ1e−σ(yi−β0−β1xi)2
L ( β 0 , β 1 ) = ∏ i p ( y i ) = ( 1 2 σ ) n e − ∑ i ( y i − β 0 − β 1 x i ) 2 σ \mathcal{L}(\beta_0,\beta_1) = \prod_i p(y_i) = (\frac{1}{\sqrt{2\sigma}})^ne^{-\frac{\sum_i(y_i-\beta_0 - \beta_1x_i)^2}{\sigma}} L(β0,β1)=∏ip(yi)=(2σ1)ne−σ∑i(yi−β0−β1xi)2
β ^ 0 , β ^ 1 = a r g m a x β 0 , β 1 L ( β 0 , β 1 ) \hat{\beta}_0,\hat{\beta}_1=argmax_{\beta_0,\beta_1}\mathcal{L}(\beta_0,\beta_1) β^0,β^1=argmaxβ0,β1L(β0,β1)
β 0 = y ‾ − β 1 x ‾ \beta_0 = \overline{y}-\beta_1\overline{x} β0=y−β1x
β ^ 1 = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i \hat{\beta}_1 = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i β^1=∑i(xi−x)21∑i(xi−x)yi
推荐系统中的估计偏差类型
选择偏差
用户可以自由选择给哪些物品打分,不给哪些物品打分,采用打分物品作为样本,估计未打分物品的评分,不满足独立同分布采样条件,因此存在估计偏差。
比如 ( x i , y i ) , i ∈ [ n ] (x_i, y_i), i\in[n] (xi,yi),i∈[n] 表示从总体中采样的容量为 n 的样本集,为了从样本观测值估计未打分物品的评分,我们采用回归模型: y = f ( x ; θ ) + ϵ y=f(x;\theta) + \epsilon y=f(x;θ)+ϵ,并最小化期望风险 L = E [ δ ( f ( x ; θ ) , y ) ] ≈ 1 n ∑ i δ ( f ( x i ) , y i ) \mathcal{L} = E[\delta(f(x;\theta), y)] \approx \frac{1}{n}\sum_i\delta(f(x_i),y_i) L=E[δ(f(x;θ),y)]≈n1∑iδ(f(xi),yi) 求解参数 θ \theta θ 估计值 θ ^ \hat{\theta} θ^ 以及评分估计值 y ^ = f ( x ; θ ^ ) \hat{y} = f(x;\hat{\theta}) y^=f(x;θ^)。将 L = E [ δ ( f ( θ ; θ ) , y ) ] \mathcal{L} = E[\delta(f(\theta;\theta), y)] L=E[δ(f(θ;θ),y)] 称为期望风险, L = 1 n ∑ i δ ( f ( x i ; θ ) , y i ) L=\frac{1}{n}\sum_i\delta(f(x_i;\theta),y_i) L=n1∑iδ(f(xi;θ),yi) 称为经验风险,当采样过程不满足独立同分布条件时,经验风险的降低并不能保证期望风险的降低。在满足独立同分布采样条件下,有霍夫丁不等式得出 P ( ∣ L − L ∣ > e ) ≤ 2 e x p ( − 2 n e 2 U − B ) P(|L-\mathcal{L}|> e) \le 2exp(-2\frac{ne^2}{U-B}) P(∣L−L∣>e)≤2exp(−2U−Bne2) ,其中 U, B 表示 δ ( f ( x ; θ ) , y ) \delta(f(x;\theta),y) δ(f(x;θ),y) 的上界和下界。因此满足独立同分布的条件下,样本容量足够多的时候可以得到期望风险最小估计。
曝光偏差
曝光给用户的物品是总体样本的一部分,推荐系统选择哪些物品曝光不满足独立同分布条件,因此存在估计偏差。偏差的原因类似用户选择偏差。
从众偏差
一些研究提出从众偏差,定义为用户对物品的评价会受到其他人的评价的影响,偏离自己的判断。此类偏差与选择和曝光偏差不同,并不存在采样偏差。群体的评价与用户评价存在显著的相关性。
位置偏差
用户倾向于与推荐结果中位置靠前的内容产生交互。
归纳偏差
归纳偏差是模型为了更好的学习和更好的泛化效果而加入的假设。结构偏差的另一种理解是降低模型的结构风险。
流行度偏差
马太效应,热门的物品会得到更多的曝光,从而会更加热门。
公平性研究是推荐系统另一个关注的问题,存在多种定义,可以大致分为四种类型:
- 无感知公平性:
- 如果建模过程中没有使用任何敏感特征,则模型是公平的
- 通过不使用敏感特征,保证敏感群体的公平性;模型中没有采用敏感特征作为决策因子。
- 过程公平,但结果不一定公平
- 个体公平性 :
- 模型给相似的个体相似的预测结果,则模型是公平的。 Y ^ ( X ( i ) , A ( i ) ) ≈ Y ^ ( X ( j ) , A ( j ) ) \hat{Y}(X(i),A(i))\approx \hat{Y}(X(j),A(j)) Y^(X(i),A(i))≈Y^(X(j),A(j))
- 结果公平
- 人口统计公平性
- 敏感群体收到正向估计结果的概率相等 : P ( Y ^ ∣ A = 0 ) = P ( Y ^ ∣ A = 1 ) P(\hat{Y}|A=0) = P(\hat{Y}|A=1) P(Y^∣A=0)=P(Y^∣A=1)
- 结果公平
- 机会均等:
- 给定预测模型,每个敏感群体属于正例的似然相等: P ( Y ^ ∣ A = 0 , Y = 1 ) = P ( Y ^ ∣ A = 1 , Y = 1 ) P(\hat{Y}|A=0,Y=1) = P(\hat{Y}|A=1, Y=1) P(Y^∣A=0,Y=1)=P(Y^∣A=1,Y=1)
- Counterfactual Fairness:
- P ( Y ^ A ← a ( U ) ∣ X = x , A = a ) = P ( Y ^ A ← a ′ ( U ) ∣ X = x , A = a ) P(\hat{Y}_{A\leftarrow a}(U)|X=x,A=a) = P(\hat{Y}_{A\leftarrow a'}(U)|X=x,A=a) P(Y^A←a(U)∣X=x,A=a)=P(Y^A←a′(U)∣X=x,A=a)
公平性 & 准确性平衡:
- 准确性和公平性之间的平衡在推荐场景下很重要,平等对待关于敏感特征的不同群体已经被证明有损于推荐性能。