数理统计与推荐系统

​ 社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系,对这些关系的观测,规律的研究,有利于提升对社会活动或自然现象的变化规律的理解,并进一步利用规律对活动或现象进行预测、干预。

​ 变量之间的关系有些属于确定性的关系,也就是当其中某些变量的取值确定后,另外一些变量的取值可以完全确定。比如某商品售价 10 元一件,当销售量 x 确定后,销售额 y 可以通过方程 y = 10 x y = 10x y=10x 完全确定。

​ 还有些变量之间虽然存在密切的联系,但是当其中某些变量取值确定后,另外的变量的取值并不能完全确定,而是一定范围内且存在一定的波动,或高于平均水平,或低于平均水平。比如广告的投入 x 与产品销售量 y 之前的关系,一般来说当广告投入 x 的增加的时候,销售量 y 会随之提高,当并不能完全确定销售额到会提到多少,其中的原因是产品的销售量与很多因素有关,比如竞品的销售情况,居民的收入情况,等等。

​ 这种变量之间存在的密切但又不能完全确定的关系,称之为变量间的统计相关关系,或简称为相关关系。统计学中对统计相关关系的研究分为相关分析和回归分析两个分支。两种分析方法主要的差别是相关分析中的变量之间是平等的关系,而回归分析变量会分为因变量和自变量。

​ 在回归分析中,我们关注的是给定变量 x 的条件下,变量 y 的取值的期望,我们称 E ( y ∣ x ) = f ( x ) E(y|x) = f(x) E(yx)=f(x) 为理论回归方程,因此传统回归分析方法中,设定 y 是随机变量,x 是非随机变量,x 称为自变量,y 称为因变量。

​ 理论回归方程也可以表示成 y = f ( x ) + ϵ y = f(x) + \epsilon y=f(x)+ϵ. 这种表达方式显式的表达了 y 取值的两个组合部分,第一部分为 f ( x ) f(x) f(x) ,由自变量 x 完全确定,第二部分为随机变量 ϵ \epsilon ϵ,表示不确定的成分。不确定的原因可能来自:

  • 自变量遗漏:未观测的原因可能是受限于获取成本,或则认知水平,导致一些关键变量的取值未被收集
  • 函数 f ( x ) f(x) f(x) 选择偏差:选择的函数可能和真实的关系存在偏差
  • 数据收集误差:数据收集过程中的种种误差,都会导致最终结果的随机性
  • 其他因素

​ 这些因素综合起来,导致因变量 y 取值的存在一定的随机性,不能依赖 x 的取值完全确定。当 f ( x ) f(x) f(x) 为线性函数时,即为线性回归,比如 f ( x ) = β 0 + β 1 x f(x) = \beta_0+\beta_1 x f(x)=β0+β1x 为一元线性回归方程。线性回归方程式最重要的一类回归方程,是因为一些结果在线性回归的基础上才会有更深刻的和普遍的性质。

​ 回归分析中,重要的任务之一是,通过变量的观测值 ( x i , y i ) i ∈ [ n ] (x_i,y_i)i\in[n] xi,yii[n], 对参数 β 0 , β 1 \beta_0,\beta_1 β0,β1 以及 E ( y ∣ x ) = β 0 + β 1 x E(y|x) = \beta_0+\beta_1 x E(yx)=β0+β1x 进行估计。并研究估计值 β ^ 0 , β ^ 1 , y ^ = β 0 ^ + β ^ 1 x \hat{\beta}_0,\hat{\beta}_1,\hat{y}=\hat{\beta_0} + \hat{\beta}_1x β^0,β^1,y^=β0^+β^1x 的性质,在分析估计方法之前,先介绍一下对参数估计值的衡量标准。

​ 参数的估计方式一般会有多种,如果比较,选择适合的估计方法,是参数估计的重要目标,统计推断中对参数估计量的几个衡量指标有:

无偏性

参数 θ \theta θ 的估计值 θ ^ \hat{\theta} θ^,满足条件 E [ θ ^ ] = θ , θ ∈ D ( θ ) E[\hat{\theta}] = \theta, \theta\in \mathcal{D}(\theta) E[θ^]=θ,θD(θ),则称 θ ^ \hat{\theta} θ^ 为参数 θ \theta θ 的无偏估计;将样本量为n时对应的估计量记为 θ ^ n \hat{\theta}_n θ^n,满足条件 $lim_{n\rightarrow \infin} E[\hat{\theta}_n] = \theta $, 则称 θ ^ \hat{\theta} θ^ 为参数 θ \theta θ 的渐进无偏估计。

比如 x ‾ = 1 n ∑ i x i \overline{x} = \frac{1}{n}\sum_ix_i x=n1ixi 就是对变量x的均值 E ( x ) E(x) E(x)的无偏估计,其中样本 x i i ∈ [ n ] x_i\quad i\in [n] xii[n] 为来自总体 x 的独立同分布样本,证明如下:

E [ x ‾ ] = E [ 1 n ∑ i x i ] = 1 n ∑ i E [ x i ] = 1 n ∑ i E [ x ] = E [ x ] E[\overline{x}] = E[\frac{1}{n}\sum_ix_i] \\= \frac{1}{n}\sum_iE[x_i] = \frac{1}{n}\sum_iE[x] \\= E[x] E[x]=E[n1ixi]=n1iE[xi]=n1iE[x]=E[x]

样本 x i x_i xi 独立采样自样本总体,因此 E [ x i ] = E [ x ] E[x_i] = E[x] E[xi]=E[x]. 可以看出 x ‾ , x i \overline{x}, x_i x,xi 都是总体均值 E [ x ] E[x] E[x] 的无偏估计。

E [ 1 n − 1 ∑ i ( x i − x ‾ ) 2 ] = 1 n − 1 E [ ∑ i ( x i 2 − 2 x i x ‾ + x ‾ 2 ) ] = 1 n − 1 E [ ∑ i x i 2 − 2 x ‾ ∑ i x i + n x ‾ 2 ] = 1 n − 1 E [ ∑ i x i 2 − n x ‾ 2 ] = 1 n − 1 [ ∑ i E [ x i 2 ] − n E [ x ‾ 2 ] ] = 1 n − 1 [ ∑ i ( V a r ( x i ) + E [ x i ] 2 ) − n ( V a r ( x ‾ ) + E [ x ‾ ] 2 ) ] = 1 n − 1 [ ∑ i ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) ] = 1 n − 1 [ n σ 2 + n μ 2 − σ 2 − n μ 2 ] = σ 2 E[\frac{1}{n-1}\sum_i(x_i-\overline{x})^2] = \frac{1}{n-1}E[\sum_i(x_i^2 - 2x_i\overline{x} + \overline{x}^2)] \\= \frac{1}{n-1}E[\sum_ix_i^2 - 2\overline{x}\sum_ix_i + n\overline{x}^2] = \frac{1}{n-1}E[\sum_ix_i^2-n\overline{x}^2]\\=\frac{1}{n-1}[\sum_iE[x_i^2]- nE[\overline{x}^2]] = \frac{1}{n-1}[\sum_i(Var(x_i)+E[x_i]^2) - n(Var(\overline{x}) + E[\overline{x}]^2)] \\= \frac{1}{n-1}[\sum_i(\sigma^2 + \mu^2)-n(\frac{\sigma^2}{n} + \mu^2)] = \frac{1}{n-1}[n\sigma^2 + n\mu^2-\sigma^2 - n\mu^2] \\= \sigma^2 E[n11i(xix)2]=n11E[i(xi22xix+x2)]=n11E[ixi22xixi+nx2]=n11E[ixi2nx2]=n11[iE[xi2]nE[x2]]=n11[i(Var(xi)+E[xi]2)n(Var(x)+E[x]2)]=n11[i(σ2+μ2)n(nσ2+μ2)]=n11[nσ2+nμ2σ2nμ2]=σ2

1 n − 1 ∑ i ( x i − x ‾ ) 2 \frac{1}{n-1}\sum_i(x_i-\overline{x})^2 n11i(xix)2 是总体方差 σ 2 \sigma^2 σ2 的无偏估计。

相合性

样本量为 n 时参数 θ \theta θ 的估计量记为 θ ^ n \hat{\theta}_n θ^n,满足条件,给定任意 ϵ > 0 , P ( ∣ θ ^ n − θ ∣ > ϵ ) → 0 ( n → ∞ ) \epsilon > 0, P(|\hat{\theta}_n-\theta| > \epsilon)\rightarrow 0( n\rightarrow \infin) ϵ>0,P(θ^nθ>ϵ)0(n), 则称 θ ^ n \hat{\theta}_n θ^n 为参数 θ \theta θ 的相合估计。也就是随着样本量增大,估计值与真实值的误差依概率收敛于零。

正态渐近性

参数 θ \theta θ 的相合估计量 θ ^ n ( x 1 , x 2 , . . . , x n ) \hat{\theta}_n(x_1,x_2,...,x_n) θ^n(x1,x2,...,xn), 其中 n 表示样本量,若存在趋近于零的正数序列 σ n ( θ ) \sigma_n(\theta) σn(θ),满足条件 P ( θ ^ n − θ σ n ( θ ) ≤ y ) → Θ ( y ) ( n → ∞ ) P( \frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)} \le y)\rightarrow \Theta(y)(n\rightarrow \infin) P(σn(θ)θ^nθy)Θ(y)(n),也就是 θ ^ n − θ σ n ( θ ) ∼ N ( 0 , 1 ) ( n → ∞ ) \frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)}\sim \mathcal{N}(0, 1) (n\rightarrow \infin) σn(θ)θ^nθN(0,1)(n),则称 θ ^ n \hat{\theta}_n θ^n 为参数 θ \theta θ 的正态渐近估计。

有效性

θ ^ 1 , θ ^ 2 \hat{\theta}_1, \hat{\theta}_2 θ^1,θ^2 为参数 θ \theta θ 的两个无偏估计,满足条件 V a r ( θ ^ 1 ) ≤ V a r ( θ ^ 2 ) Var(\hat{\theta}_1)\le Var(\hat{\theta}_2) Var(θ^1)Var(θ^2),则称 θ ^ 1 \hat{\theta}_1 θ^1 θ ^ 2 \hat{\theta}_2 θ^2 有效。

V a r ( x i ) = σ 2 Var(x_i) = \sigma^2 Var(xi)=σ2

V a r ( x ‾ ) = V a r ( 1 n ∑ i x i ) = 1 n 2 ∑ i V a r ( x i ) = σ 2 n Var(\overline{x}) = Var(\frac{1}{n}\sum_ix_i) = \frac{1}{n^2}\sum_iVar(x_i) = \frac{\sigma^2}{n} Var(x)=Var(n1ixi)=n21iVar(xi)=nσ2

V a r ( x ‾ ) ≤ V a r ( x i ) Var(\overline{x}) \le Var(x_i) Var(x)Var(xi)

其中 n 表示样本容量,可以看出 x ‾ , x i \overline{x},x_i x,xi 都是 E ( x ) E(x) E(x) 的无偏估计,但 x ‾ \overline{x} x x i x_i xi 的方差较小,因此比较有效。

均方误差

θ ^ 1 , θ ^ 2 \hat{\theta}_1,\hat{\theta}_2 θ^1,θ^2 为参数 θ \theta θ 的两个无偏估计,若满足条件 E [ ( θ ^ 1 − θ ) 2 ] ≤ E [ ( θ ^ 2 − θ ) 2 ] E[(\hat{\theta}_1-\theta)^2] \le E[(\hat{\theta}_2-\theta)^2] E[(θ^1θ)2]E[(θ^2θ)2]

对局方误差满足以下性质:

E [ ( θ ^ − θ ) 2 ] = E [ θ ^ 2 − 2 θ θ ^ + θ 2 ] E[(\hat{\theta}-\theta)^2] = E[\hat{\theta}^2 - 2\theta\hat{\theta} + \theta^2] E[(θ^θ)2]=E[θ^22θθ^+θ2]

= E [ θ ^ 2 ] − 2 θ E [ θ ^ ] + θ 2 =E[\hat{\theta}^2] - 2\theta E[\hat{\theta}]+ \theta^2 =E[θ^2]2θE[θ^]+θ2

= V a r [ θ ^ ] + ( E [ θ ^ ] ) 2 − 2 θ E [ θ ^ ] + θ 2 =Var[\hat{\theta}] + (E[\hat{\theta}])^2 - 2\theta E[\hat{\theta}] + \theta^2 =Var[θ^]+(E[θ^])22θE[θ^]+θ2

= V a r [ θ ^ ] + ( E [ θ ^ ] − θ ) 2 =Var[\hat{\theta}] + (E[\hat{\theta}]-\theta)^2 =Var[θ^]+(E[θ^]θ)2

无论是有偏估计还是无偏估计,估计量的均方误差又估计量的方差和估计量的偏差两部分组成。物品估计的偏差项为零。

我们以线性回归介绍参数估计问题。

线性回归

线性回归方程: y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ

观测样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1,y_1),(x_2,y_2),...,(x_n,y_n) (x1,y1),(x2,y2),...,(xn,yn)

如何对参数 β 0 , β 1 \beta_0,\beta_1 β0,β1 以及目标值 y y y 进行估计 ?下面介绍最小二乘估计和最大似然估计两种方法。

最小二乘估计

y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ

( x i , y i ) , i ∈ [ n ] (x_i,y_i),i \in [n] (xi,yi),i[n]

β ^ 0 , β ^ 1 = a r g m i n β 0 , β 1 Q ( β 0 , β 1 ) = a r g m i n β 0 , β 1 1 n ∑ i ( y i − β 0 − β 1 x i ) 2 \hat{\beta}_0,\hat{\beta}_1 = argmin_{\beta_0,\beta_1} Q(\beta_0, \beta_1)= argmin_{\beta_0,\beta_1}\frac{1}{n}\sum_i (y_i - \beta_0 - \beta_1 x_i)^2 β^0,β^1=argminβ0,β1Q(β0,β1)=argminβ0,β1n1i(yiβ0β1xi)2

∂ Q ∂ β 0 ( β ^ 0 ) = 1 n ∑ i ( 2 β 0 + 2 ( β 1 x i − y i ) ) = 1 n [ 2 n β 0 + 2 β 1 ∑ i x i − 2 ∑ i y i ] = 2 β 0 + 2 β 1 x ‾ − 2 y ‾ = 0 \frac{\partial Q}{\partial \beta_0}(\hat{\beta}_0) =\frac{1}{n}\sum_i(2\beta_0 + 2(\beta_1 x_i - y_i))=\frac{1}{n}[2n\beta_0 + 2\beta_1\sum_ix_i - 2\sum_iy_i] = 2\beta_0 + 2\beta_1\overline{x} - 2\overline{y}= 0 β0Q(β^0)=n1i(2β0+2(β1xiyi))=n1[2nβ0+2β1ixi2iyi]=2β0+2β1x2y=0

∂ Q ∂ β 1 ( β ^ 1 ) = 1 n ∑ i [ 2 x i 2 β 1 + 2 x i ( β 0 − y i ) ] = 1 n [ 2 β 1 ∑ i x i 2 + 2 β 0 ∑ i x i − 2 ∑ i x i y i ] = 0 \frac{\partial Q}{\partial \beta_1}({\hat\beta}_1)=\frac{1}{n}\sum_i[2x_i^2\beta_1 + 2x_i(\beta_0-y_i)] = \frac{1}{n}[2\beta_1\sum_ix_i^2 + 2\beta_0\sum_ix_i-2\sum_ix_iy_i]= 0 β1Q(β^1)=n1i[2xi2β1+2xi(β0yi)]=n1[2β1ixi2+2β0ixi2ixiyi]=0

β 0 = y ‾ − β 1 x ‾ \beta_0 = \overline{y}-\beta_1\overline{x} β0=yβ1x

1 n β 1 ∑ i x i 2 + ( y ‾ − β 1 x ‾ ) x ‾ − 1 n ∑ i x i y i = 0 \frac{1}{n}\beta_1\sum_ix_i^2+(\overline{y}-\beta_1\overline{x})\overline{x}-\frac{1}{n}\sum_ix_iy_i = 0 n1β1ixi2+(yβ1x)xn1ixiyi=0

β 1 = ∑ i x i y i − n x ‾ y ‾ ∑ i x i 2 − n x ‾ 2 = ∑ i x i y i − y ‾ ∑ i x i ∑ i x i 2 − x ‾ ∑ i x i = ∑ i x i ( y i − y ‾ ) ∑ i x i ( x i − x ‾ ) = ∑ i x i ( y i − y ‾ ) − x ‾ ∑ i ( y i − y ‾ ) ∑ i x i ( x i − x ‾ ) − x ‾ ∑ i ( x i − x ‾ ) = ∑ i ( x i − x ‾ ) ( y i − y ‾ ) ∑ i ( x i − x ‾ ) 2 = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i \beta_1 = \frac{\sum_ix_iy_i-n\overline{x}\overline{y}}{\sum_ix_i^2 - n\overline{x}^2} = \frac{\sum_ix_iy_i - \overline{y}\sum_ix_i}{\sum_ix_i^2 - \overline{x}\sum_ix_i} = \frac{\sum_ix_i(y_i-\overline{y})}{\sum_ix_i(x_i - \overline{x})} = \frac{\sum_ix_i(y_i-\overline{y})-\overline{x}\sum_i(y_i-\overline{y})}{\sum_ix_i(x_i-\overline{x})-\overline{x}\sum_i(x_i-\overline{x})} = \frac{\sum_i(x_i-\overline{x})(y_i-\overline{y})}{\sum_i(x_i-\overline{x})^2}=\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i β1=ixi2nx2ixiyinxy=ixi2xixiixiyiyixi=ixi(xix)ixi(yiy)=ixi(xix)xi(xix)ixi(yiy)xi(yiy)=i(xix)2i(xix)(yiy)=i(xix)21i(xix)yi

β ^ 0 = y ‾ − β ^ 1 x ‾ \hat{\beta}_0 = \overline{y} - \hat{\beta}_1\overline{x} β^0=yβ^1x

β ^ 1 = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i \hat{\beta}_1 = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i β^1=i(xix)21i(xix)yi

最小二乘估计的无偏性证明 :

E [ β ^ 1 ] = E [ 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i ] = 1 ∑ i ( x i − x ‾ ) 2 E [ ∑ i ( x i − x ‾ ) y i ] = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) E ( y i ) = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) ( β 0 + β 1 x i + E ( ϵ i ) ) = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) x i β 1 = β 1 E[\hat{\beta}_1] = E[\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i] \\= \frac{1}{\sum_i(x_i-\overline{x})^2}E[\sum_i(x_i-\overline{x})y_i] = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})E(y_i)\\= \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})(\beta_0 + \beta_1x_i + E(\epsilon_i))\\=\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})x_i\beta_1 = \beta_1 E[β^1]=E[i(xix)21i(xix)yi]=i(xix)21E[i(xix)yi]=i(xix)21i(xix)E(yi)=i(xix)21i(xix)(β0+β1xi+E(ϵi))=i(xix)21i(xix)xiβ1=β1

可以看出无偏性依赖假设 E [ ϵ i ] = 0 E[\epsilon_i] = 0 E[ϵi]=0

E [ β ^ 0 ] = E [ y ‾ − β ^ 1 x ‾ ] = E [ y ‾ ] − x ‾ E [ β ^ 1 ] = E [ ∑ i y i n ] − x ‾ β 1 = ∑ i E [ y i ] n − x ‾ β 1 = ∑ i ( β 0 + β 1 x i + E [ ϵ i ] ) n − x ‾ β 1 = β 0 E[\hat{\beta}_0] = E[\overline{y}-\hat{\beta}_1\overline{x}] \\ = E[\overline{y}] - \overline{x}E[\hat{\beta}_1] = E[\frac{\sum_iy_i}{n}] - \overline{x}\beta_1 \\= \frac{\sum_iE[y_i]}{n} - \overline{x}\beta_1 = \frac{\sum_i(\beta_0+\beta_1x_i+E[\epsilon_i])}{n} - \overline{x}\beta_1=\beta_0 E[β^0]=E[yβ^1x]=E[y]xE[β^1]=E[niyi]xβ1=niE[yi]xβ1=ni(β0+β1xi+E[ϵi])xβ1=β0

无偏性同样依赖假设 E [ ϵ i ] = 0 E[\epsilon_i] = 0 E[ϵi]=0

E [ y ^ ] = E [ β ^ 0 + β ^ 1 x ] = E [ β 0 ^ ] + E [ β 1 x ] = β 0 + β 1 x = E [ y ] E[\hat{y}] = E[\hat{\beta}_0 + \hat{\beta}_1 x] = E[\hat{\beta_0}] + E[\beta_1x] = \beta_0 + \beta_1x = E[y] E[y^]=E[β^0+β^1x]=E[β0^]+E[β1x]=β0+β1x=E[y]

考察最小二乘估计的方差:

V a r ( β ^ 1 ) = V a r ( 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i ) = ( 1 ∑ i ( x i − x ‾ ) 2 ) 2 V a r ( ∑ i ( x i − x ‾ ) y i ) = ( 1 ∑ i ( x i − x ‾ ) 2 ) 2 ∑ i V a r ( ( x i − x ‾ ) y i ) = ( 1 ∑ i ( x i − x ‾ ) 2 ) 2 ∑ i ( x i − x ‾ ) 2 V a r ( y i ) = ∑ i ( x i − x ‾ ) 2 V a r ( y i ) ( ∑ i ( x i − x ‾ ) 2 ) 2 = ∑ i ( x i − x ‾ ) 2 σ 2 ( ∑ i ( x i − x ‾ ) 2 ) 2 = σ 2 ∑ i ( x i − x ‾ ) 2 = σ 2 l x x Var(\hat{\beta}_1) = Var(\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i) = (\frac{1}{\sum_i(x_i-\overline{x})^2})^2Var(\sum_i(x_i-\overline{x})y_i) \\ = (\frac{1}{\sum_i(x_i-\overline{x})^2})^2 \sum_iVar((x_i-\overline{x})y_i)= (\frac{1}{\sum_i(x_i-\overline{x})^2})^2 \sum_i(x_i-\overline{x})^2Var(y_i)\\=\frac{\sum_i(x_i-\overline{x})^2Var(y_i)}{(\sum_i(x_i-\overline{x})^2)^2} = \frac{\sum_i(x_i-\overline{x})^2\sigma^2}{(\sum_i(x_i-\overline{x})^2)^2}=\frac{\sigma^2}{\sum_i(x_i-\overline{x})^2} = \frac{\sigma^2}{\mathcal{l}_{xx}} Var(β^1)=Var(i(xix)21i(xix)yi)=(i(xix)21)2Var(i(xix)yi)=(i(xix)21)2iVar((xix)yi)=(i(xix)21)2i(xix)2Var(yi)=(i(xix)2)2i(xix)2Var(yi)=(i(xix)2)2i(xix)2σ2=i(xix)2σ2=lxxσ2

引入假设 y i y_i yi相互独立,且 V a r ( y i ) = V a r ( ϵ i ) = σ Var(y_i) = Var(\epsilon_i) = \sigma Var(yi)=Var(ϵi)=σ, 当样本量越大, V a r ( β ^ 1 ) Var(\hat{\beta}_1) Var(β^1)越小。

V a r ( β 0 ^ ) = V a r ( y ‾ − β ^ 1 x ‾ ) = V a r ( ∑ i y i / n − x ‾ 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i ) = 1 n 2 ∑ i V a r ( y i ) + x ‾ 2 l x x σ 2 = σ 2 n 2 + x ‾ 2 σ 2 l x x = ( 1 n 2 + x ‾ 2 l x x ) σ 2 Var(\hat{\beta_0}) = Var(\overline{y} - \hat{\beta}_1\overline{x}) = Var(\sum_iy_i/n-\overline{x}\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i) \\= \frac{1}{n^2}\sum_iVar(y_i) + \frac{\overline{x}^2}{\mathcal{l}_{xx}}\sigma^2 = \frac{\sigma^2}{n^2} + \frac{\overline{x}^2\sigma^2}{\mathcal{l}_{xx}} = (\frac{1}{n^2} + \frac{\overline{x}^2}{\mathcal{l}_{xx}})\sigma^2 Var(β0^)=Var(yβ^1x)=Var(iyi/nxi(xix)21i(xix)yi)=n21iVar(yi)+lxxx2σ2=n2σ2+lxxx2σ2=(n21+lxxx2)σ2

当样本量越大, V a r ( β ^ 1 ) Var(\hat{\beta}_1) Var(β^1)越小。

V a r ( β ^ 0 + β ^ 1 x ) = V a r ( y ‾ − β ^ 1 x ‾ + β 1 ^ x ) = V a r ( y ‾ + ( x − x ‾ ) β ^ 1 ) = V a r ( ∑ i y i / n + ( x − x ‾ ) 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i = 1 n 2 V a r ( y i ) + ( x − x ‾ ) 2 l x x 2 ∑ i ( x i − x ‾ ) V a r ( y i ) = σ 2 n 2 + ( x − x ‾ ) 2 σ 2 l x x = ( 1 n 2 + ( x − x ‾ ) 2 l x x ) σ 2 Var(\hat{\beta}_0 + \hat{\beta}_1x) = Var(\overline{y} - \hat{\beta}_1\overline{x} + \hat{\beta_1}x) = Var(\overline{y} + (x-\overline{x})\hat{\beta}_1) \\= Var(\sum_iy_i/n+(x-\overline{x})\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i = \frac{1}{n^2}Var(y_i) + \frac{(x-\overline{x})^2}{l_{xx}^2}\sum_i(x_i-\overline{x})Var(y_i) \\=\frac{\sigma^2}{n^2} + \frac{(x-\overline{x})^2\sigma^2}{l_{xx}} = (\frac{1}{n^2} + \frac{(x-\overline{x})^2}{l_{xx}})\sigma^2 Var(β^0+β^1x)=Var(yβ^1x+β1^x)=Var(y+(xx)β^1)=Var(iyi/n+(xx)i(xix)21i(xix)yi=n21Var(yi)+lxx2(xx)2i(xix)Var(yi)=n2σ2+lxx(xx)2σ2=(n21+lxx(xx)2)σ2

最大似然估计

ϵ ∼ N ( 0 , σ ) \epsilon \sim \mathcal{N}(0, \sigma) ϵN(0,σ)

y i ∼ ( β 0 + β 1 x i , σ ) y_i \sim \mathcal(\beta_0 + \beta_1x_i, \sigma) yi(β0+β1xi,σ)

p ( y i ) = 1 2 σ e − ( y i − β 0 − β 1 x i ) 2 σ p(y_i) = \frac{1}{\sqrt{2\sigma}}e^{-\frac{(y_i-\beta_0-\beta_1x_i)^2}{\sigma}} p(yi)=2σ 1eσ(yiβ0β1xi)2

L ( β 0 , β 1 ) = ∏ i p ( y i ) = ( 1 2 σ ) n e − ∑ i ( y i − β 0 − β 1 x i ) 2 σ \mathcal{L}(\beta_0,\beta_1) = \prod_i p(y_i) = (\frac{1}{\sqrt{2\sigma}})^ne^{-\frac{\sum_i(y_i-\beta_0 - \beta_1x_i)^2}{\sigma}} L(β0,β1)=ip(yi)=(2σ 1)neσi(yiβ0β1xi)2

β ^ 0 , β ^ 1 = a r g m a x β 0 , β 1 L ( β 0 , β 1 ) \hat{\beta}_0,\hat{\beta}_1=argmax_{\beta_0,\beta_1}\mathcal{L}(\beta_0,\beta_1) β^0,β^1=argmaxβ0,β1L(β0,β1)

β 0 = y ‾ − β 1 x ‾ \beta_0 = \overline{y}-\beta_1\overline{x} β0=yβ1x

β ^ 1 = 1 ∑ i ( x i − x ‾ ) 2 ∑ i ( x i − x ‾ ) y i \hat{\beta}_1 = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i β^1=i(xix)21i(xix)yi

推荐系统中的估计偏差类型

选择偏差

​ 用户可以自由选择给哪些物品打分,不给哪些物品打分,采用打分物品作为样本,估计未打分物品的评分,不满足独立同分布采样条件,因此存在估计偏差。

​ 比如 ( x i , y i ) , i ∈ [ n ] (x_i, y_i), i\in[n] (xi,yi),i[n] 表示从总体中采样的容量为 n 的样本集,为了从样本观测值估计未打分物品的评分,我们采用回归模型: y = f ( x ; θ ) + ϵ y=f(x;\theta) + \epsilon y=f(xθ)+ϵ,并最小化期望风险 L = E [ δ ( f ( x ; θ ) , y ) ] ≈ 1 n ∑ i δ ( f ( x i ) , y i ) \mathcal{L} = E[\delta(f(x;\theta), y)] \approx \frac{1}{n}\sum_i\delta(f(x_i),y_i) L=E[δ(f(x;θ),y)]n1iδ(f(xi),yi) 求解参数 θ \theta θ 估计值 θ ^ \hat{\theta} θ^ 以及评分估计值 y ^ = f ( x ; θ ^ ) \hat{y} = f(x;\hat{\theta}) y^=f(x;θ^)。将 L = E [ δ ( f ( θ ; θ ) , y ) ] \mathcal{L} = E[\delta(f(\theta;\theta), y)] L=E[δ(f(θ;θ),y)] 称为期望风险, L = 1 n ∑ i δ ( f ( x i ; θ ) , y i ) L=\frac{1}{n}\sum_i\delta(f(x_i;\theta),y_i) L=n1iδ(f(xi;θ),yi) 称为经验风险,当采样过程不满足独立同分布条件时,经验风险的降低并不能保证期望风险的降低。在满足独立同分布采样条件下,有霍夫丁不等式得出 P ( ∣ L − L ∣ > e ) ≤ 2 e x p ( − 2 n e 2 U − B ) P(|L-\mathcal{L}|> e) \le 2exp(-2\frac{ne^2}{U-B}) P(LL>e)2exp(2UBne2) ,其中 U, B 表示 δ ( f ( x ; θ ) , y ) \delta(f(x;\theta),y) δ(f(x;θ),y) 的上界和下界。因此满足独立同分布的条件下,样本容量足够多的时候可以得到期望风险最小估计。

曝光偏差

​ 曝光给用户的物品是总体样本的一部分,推荐系统选择哪些物品曝光不满足独立同分布条件,因此存在估计偏差。偏差的原因类似用户选择偏差。

从众偏差

​ 一些研究提出从众偏差,定义为用户对物品的评价会受到其他人的评价的影响,偏离自己的判断。此类偏差与选择和曝光偏差不同,并不存在采样偏差。群体的评价与用户评价存在显著的相关性。

位置偏差

​ 用户倾向于与推荐结果中位置靠前的内容产生交互。

归纳偏差

​ 归纳偏差是模型为了更好的学习和更好的泛化效果而加入的假设。结构偏差的另一种理解是降低模型的结构风险。

流行度偏差

​ 马太效应,热门的物品会得到更多的曝光,从而会更加热门。

公平性研究是推荐系统另一个关注的问题,存在多种定义,可以大致分为四种类型:

  • 无感知公平性:
    • 如果建模过程中没有使用任何敏感特征,则模型是公平的
    • 通过不使用敏感特征,保证敏感群体的公平性;模型中没有采用敏感特征作为决策因子。
    • 过程公平,但结果不一定公平
  • 个体公平性 :
    • 模型给相似的个体相似的预测结果,则模型是公平的。 Y ^ ( X ( i ) , A ( i ) ) ≈ Y ^ ( X ( j ) , A ( j ) ) \hat{Y}(X(i),A(i))\approx \hat{Y}(X(j),A(j)) Y^(X(i),A(i))Y^(X(j),A(j))
    • 结果公平
  • 人口统计公平性
    • 敏感群体收到正向估计结果的概率相等 : P ( Y ^ ∣ A = 0 ) = P ( Y ^ ∣ A = 1 ) P(\hat{Y}|A=0) = P(\hat{Y}|A=1) P(Y^A=0)=P(Y^A=1)
    • 结果公平
  • 机会均等:
    • 给定预测模型,每个敏感群体属于正例的似然相等: P ( Y ^ ∣ A = 0 , Y = 1 ) = P ( Y ^ ∣ A = 1 , Y = 1 ) P(\hat{Y}|A=0,Y=1) = P(\hat{Y}|A=1, Y=1) P(Y^A=0,Y=1)=P(Y^A=1,Y=1)
  • Counterfactual Fairness:
    • P ( Y ^ A ← a ( U ) ∣ X = x , A = a ) = P ( Y ^ A ← a ′ ( U ) ∣ X = x , A = a ) P(\hat{Y}_{A\leftarrow a}(U)|X=x,A=a) = P(\hat{Y}_{A\leftarrow a'}(U)|X=x,A=a) P(Y^Aa(U)X=x,A=a)=P(Y^Aa(U)X=x,A=a)

公平性 & 准确性平衡:

  • 准确性和公平性之间的平衡在推荐场景下很重要,平等对待关于敏感特征的不同群体已经被证明有损于推荐性能。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值