数理统计与推荐系统

最新推荐文章于 2024-04-27 22:01:23 发布

jony0917

最新推荐文章于 2024-04-27 22:01:23 发布

阅读量239

点赞数 1

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/129745420

版权

社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系，对这些关系的观测，规律的研究，有利于提升对社会活动或自然现象的变化规律的理解，并进一步利用规律对活动或现象进行预测、干预。

变量之间的关系有些属于确定性的关系，也就是当其中某些变量的取值确定后，另外一些变量的取值可以完全确定。比如某商品售价 10 元一件，当销售量 x 确定后，销售额 y 可以通过方程 $y = 10 x$ 完全确定。

还有些变量之间虽然存在密切的联系，但是当其中某些变量取值确定后，另外的变量的取值并不能完全确定，而是一定范围内且存在一定的波动，或高于平均水平，或低于平均水平。比如广告的投入 x 与产品销售量 y 之前的关系，一般来说当广告投入 x 的增加的时候，销售量 y 会随之提高，当并不能完全确定销售额到会提到多少，其中的原因是产品的销售量与很多因素有关，比如竞品的销售情况，居民的收入情况，等等。

这种变量之间存在的密切但又不能完全确定的关系，称之为变量间的统计相关关系，或简称为相关关系。统计学中对统计相关关系的研究分为相关分析和回归分析两个分支。两种分析方法主要的差别是相关分析中的变量之间是平等的关系，而回归分析变量会分为因变量和自变量。

在回归分析中，我们关注的是给定变量 x 的条件下，变量 y 的取值的期望，我们称 $E (y ∣ x) = f (x)$ 为理论回归方程，因此传统回归分析方法中，设定 y 是随机变量，x 是非随机变量，x 称为自变量，y 称为因变量。

理论回归方程也可以表示成 $\epsilon$ . 这种表达方式显式的表达了 y 取值的两个组合部分，第一部分为 $f (x)$ ，由自变量 x 完全确定，第二部分为随机变量 $\epsilon$ ，表示不确定的成分。不确定的原因可能来自：

自变量遗漏：未观测的原因可能是受限于获取成本，或则认知水平，导致一些关键变量的取值未被收集
函数 $f (x)$ 选择偏差：选择的函数可能和真实的关系存在偏差
数据收集误差：数据收集过程中的种种误差，都会导致最终结果的随机性
其他因素

这些因素综合起来，导致因变量 y 取值的存在一定的随机性，不能依赖 x 的取值完全确定。当 $f (x)$ 为线性函数时，即为线性回归，比如 $\beta_0+\beta_1 x$ 为一元线性回归方程。线性回归方程式最重要的一类回归方程，是因为一些结果在线性回归的基础上才会有更深刻的和普遍的性质。

回归分析中，重要的任务之一是，通过变量的观测值 $（x_i,y_i）i\in[n]$ , 对参数 $\beta_0,\beta_1$ 以及 $\beta_0+\beta_1 x$ 进行估计。并研究估计值 $\hat{\beta}_0,\hat{\beta}_1,\hat{y}=\hat{\beta_0} + \hat{\beta}_1x$ 的性质，在分析估计方法之前，先介绍一下对参数估计值的衡量标准。

参数的估计方式一般会有多种，如果比较，选择适合的估计方法，是参数估计的重要目标，统计推断中对参数估计量的几个衡量指标有：

无偏性

参数 $\theta$ 的估计值 $\hat{\theta}$ ，满足条件 $E[\hat{\theta}] = \theta, \theta\in \mathcal{D}(\theta)$ ，则称 $\hat{\theta}$ 为参数 $\theta$ 的无偏估计；将样本量为n时对应的估计量记为 $\hat{\theta}_n$ ，满足条件 $lim_{n\rightarrow \infin} E[\hat{\theta}_n] = \theta $, 则称 $\hat{\theta}$ 为参数 $\theta$ 的渐进无偏估计。

比如 $\overline{x} = \frac{1}{n}\sum_ix_i$ 就是对变量x的均值 $E (x)$ 的无偏估计，其中样本 $x_i\quad i\in [n]$ 为来自总体 x 的独立同分布样本，证明如下：

$E[\overline{x}] = E[\frac{1}{n}\sum_ix_i] \\= \frac{1}{n}\sum_iE[x_i] = \frac{1}{n}\sum_iE[x] \\= E[x]$

样本 $x_i$ 独立采样自样本总体，因此 $E[x_i] = E[x]$ . 可以看出 $\overline{x}, x_i$ 都是总体均值 $E [x]$ 的无偏估计。

$E[\frac{1}{n-1}\sum_i(x_i-\overline{x})^2] = \frac{1}{n-1}E[\sum_i(x_i^2 - 2x_i\overline{x} + \overline{x}^2)] \\= \frac{1}{n-1}E[\sum_ix_i^2 - 2\overline{x}\sum_ix_i + n\overline{x}^2] = \frac{1}{n-1}E[\sum_ix_i^2-n\overline{x}^2]\\=\frac{1}{n-1}[\sum_iE[x_i^2]- nE[\overline{x}^2]] = \frac{1}{n-1}[\sum_i(Var(x_i)+E[x_i]^2) - n(Var(\overline{x}) + E[\overline{x}]^2)] \\= \frac{1}{n-1}[\sum_i(\sigma^2 + \mu^2)-n(\frac{\sigma^2}{n} + \mu^2)] = \frac{1}{n-1}[n\sigma^2 + n\mu^2-\sigma^2 - n\mu^2] \\= \sigma^2$

$\frac{1}{n-1}\sum_i(x_i-\overline{x})^2$ 是总体方差 $\sigma^2$ 的无偏估计。

相合性

样本量为 n 时参数 $\theta$ 的估计量记为 $\hat{\theta}_n$ ，满足条件，给定任意 $\epsilon > 0, P(|\hat{\theta}_n-\theta| > \epsilon)\rightarrow 0( n\rightarrow \infin)$ , 则称 $\hat{\theta}_n$ 为参数 $\theta$ 的相合估计。也就是随着样本量增大，估计值与真实值的误差依概率收敛于零。

正态渐近性

参数 $\theta$ 的相合估计量 $\hat{\theta}_n(x_1,x_2,...,x_n)$ , 其中 n 表示样本量，若存在趋近于零的正数序列 $\sigma_n(\theta)$ ，满足条件 $\frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)} \le y)\rightarrow \Theta(y)(n\rightarrow \infin)$ ，也就是 $\frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)}\sim \mathcal{N}(0, 1) (n\rightarrow \infin)$ ，则称 $\hat{\theta}_n$ 为参数 $\theta$ 的正态渐近估计。

有效性

$\hat{\theta}_1, \hat{\theta}_2$ 为参数 $\theta$ 的两个无偏估计，满足条件 $Var(\hat{\theta}_1)\le Var(\hat{\theta}_2)$ ，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效。

$Var(x_i) = \sigma^2$

$Var(\overline{x}) = Var(\frac{1}{n}\sum_ix_i) = \frac{1}{n^2}\sum_iVar(x_i) = \frac{\sigma^2}{n}$

$Var(\overline{x}) \le Var(x_i)$

其中 n 表示样本容量，可以看出 $\overline{x},x_i$ 都是 $E (x)$ 的无偏估计，但 $\overline{x}$ 比 $x_i$ 的方差较小，因此比较有效。

均方误差

$\hat{\theta}_1,\hat{\theta}_2$ 为参数 $\theta$ 的两个无偏估计，若满足条件 $E[(\hat{\theta}_1-\theta)^2] \le E[(\hat{\theta}_2-\theta)^2]$ ，

对局方误差满足以下性质：

$E[(\hat{\theta}-\theta)^2] = E[\hat{\theta}^2 - 2\theta\hat{\theta} + \theta^2]$

$=E[\hat{\theta}^2] - 2\theta E[\hat{\theta}]+ \theta^2$

$=Var[\hat{\theta}] + (E[\hat{\theta}])^2 - 2\theta E[\hat{\theta}] + \theta^2$

$=Var[\hat{\theta}] + (E[\hat{\theta}]-\theta)^2$

无论是有偏估计还是无偏估计，估计量的均方误差又估计量的方差和估计量的偏差两部分组成。物品估计的偏差项为零。

我们以线性回归介绍参数估计问题。

线性回归

线性回归方程： $\beta_0 + \beta_1 x + \epsilon$

观测样本 $x_1,y_1),(x_2,y_2),...,(x_n,y_n)$

如何对参数 $\beta_0,\beta_1$ 以及目标值 $y$ 进行估计？下面介绍最小二乘估计和最大似然估计两种方法。

最小二乘估计

$\beta_0 + \beta_1 x + \epsilon$

$(x_i,y_i),i \in [n]$

$\hat{\beta}_0,\hat{\beta}_1 = argmin_{\beta_0,\beta_1} Q(\beta_0, \beta_1)= argmin_{\beta_0,\beta_1}\frac{1}{n}\sum_i (y_i - \beta_0 - \beta_1 x_i)^2$

$\frac{\partial Q}{\partial \beta_0}(\hat{\beta}_0) =\frac{1}{n}\sum_i(2\beta_0 + 2(\beta_1 x_i - y_i))=\frac{1}{n}[2n\beta_0 + 2\beta_1\sum_ix_i - 2\sum_iy_i] = 2\beta_0 + 2\beta_1\overline{x} - 2\overline{y}= 0$

$\frac{\partial Q}{\partial \beta_1}({\hat\beta}_1)=\frac{1}{n}\sum_i[2x_i^2\beta_1 + 2x_i(\beta_0-y_i)] = \frac{1}{n}[2\beta_1\sum_ix_i^2 + 2\beta_0\sum_ix_i-2\sum_ix_iy_i]= 0$

$\beta_0 = \overline{y}-\beta_1\overline{x}$

$\frac{1}{n}\beta_1\sum_ix_i^2+(\overline{y}-\beta_1\overline{x})\overline{x}-\frac{1}{n}\sum_ix_iy_i = 0$

$\beta_1 = \frac{\sum_ix_iy_i-n\overline{x}\overline{y}}{\sum_ix_i^2 - n\overline{x}^2} = \frac{\sum_ix_iy_i - \overline{y}\sum_ix_i}{\sum_ix_i^2 - \overline{x}\sum_ix_i} = \frac{\sum_ix_i(y_i-\overline{y})}{\sum_ix_i(x_i - \overline{x})} = \frac{\sum_ix_i(y_i-\overline{y})-\overline{x}\sum_i(y_i-\overline{y})}{\sum_ix_i(x_i-\overline{x})-\overline{x}\sum_i(x_i-\overline{x})} = \frac{\sum_i(x_i-\overline{x})(y_i-\overline{y})}{\sum_i(x_i-\overline{x})^2}=\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i$

$\hat{\beta}_0 = \overline{y} - \hat{\beta}_1\overline{x}$

$\hat{\beta}_1 = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i$

最小二乘估计的无偏性证明：

$E[\hat{\beta}_1] = E[\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i] \\= \frac{1}{\sum_i(x_i-\overline{x})^2}E[\sum_i(x_i-\overline{x})y_i] = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})E(y_i)\\= \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})(\beta_0 + \beta_1x_i + E(\epsilon_i))\\=\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})x_i\beta_1 = \beta_1$

可以看出无偏性依赖假设 $E[\epsilon_i] = 0$

$E[\hat{\beta}_0] = E[\overline{y}-\hat{\beta}_1\overline{x}] \\ = E[\overline{y}] - \overline{x}E[\hat{\beta}_1] = E[\frac{\sum_iy_i}{n}] - \overline{x}\beta_1 \\= \frac{\sum_iE[y_i]}{n} - \overline{x}\beta_1 = \frac{\sum_i(\beta_0+\beta_1x_i+E[\epsilon_i])}{n} - \overline{x}\beta_1=\beta_0$

无偏性同样依赖假设 $E[\epsilon_i] = 0$

$E[\hat{y}] = E[\hat{\beta}_0 + \hat{\beta}_1 x] = E[\hat{\beta_0}] + E[\beta_1x] = \beta_0 + \beta_1x = E[y]$

考察最小二乘估计的方差：

$Var(\hat{\beta}_1) = Var(\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i) = (\frac{1}{\sum_i(x_i-\overline{x})^2})^2Var(\sum_i(x_i-\overline{x})y_i) \\ = (\frac{1}{\sum_i(x_i-\overline{x})^2})^2 \sum_iVar((x_i-\overline{x})y_i)= (\frac{1}{\sum_i(x_i-\overline{x})^2})^2 \sum_i(x_i-\overline{x})^2Var(y_i)\\=\frac{\sum_i(x_i-\overline{x})^2Var(y_i)}{(\sum_i(x_i-\overline{x})^2)^2} = \frac{\sum_i(x_i-\overline{x})^2\sigma^2}{(\sum_i(x_i-\overline{x})^2)^2}=\frac{\sigma^2}{\sum_i(x_i-\overline{x})^2} = \frac{\sigma^2}{\mathcal{l}_{xx}}$

引入假设 $y_i$ 相互独立，且 $Var(y_i) = Var(\epsilon_i) = \sigma$ ，当样本量越大， $Var(\hat{\beta}_1)$ 越小。

$Var(\hat{\beta_0}) = Var(\overline{y} - \hat{\beta}_1\overline{x}) = Var(\sum_iy_i/n-\overline{x}\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i) \\= \frac{1}{n^2}\sum_iVar(y_i) + \frac{\overline{x}^2}{\mathcal{l}_{xx}}\sigma^2 = \frac{\sigma^2}{n^2} + \frac{\overline{x}^2\sigma^2}{\mathcal{l}_{xx}} = (\frac{1}{n^2} + \frac{\overline{x}^2}{\mathcal{l}_{xx}})\sigma^2$

当样本量越大， $Var(\hat{\beta}_1)$ 越小。

$Var(\hat{\beta}_0 + \hat{\beta}_1x) = Var(\overline{y} - \hat{\beta}_1\overline{x} + \hat{\beta_1}x) = Var(\overline{y} + (x-\overline{x})\hat{\beta}_1) \\= Var(\sum_iy_i/n+(x-\overline{x})\frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i = \frac{1}{n^2}Var(y_i) + \frac{(x-\overline{x})^2}{l_{xx}^2}\sum_i(x_i-\overline{x})Var(y_i) \\=\frac{\sigma^2}{n^2} + \frac{(x-\overline{x})^2\sigma^2}{l_{xx}} = (\frac{1}{n^2} + \frac{(x-\overline{x})^2}{l_{xx}})\sigma^2$

最大似然估计

$\epsilon \sim \mathcal{N}(0, \sigma)$

$y_i \sim \mathcal(\beta_0 + \beta_1x_i, \sigma)$

$p(y_i) = \frac{1}{\sqrt{2\sigma}}e^{-\frac{(y_i-\beta_0-\beta_1x_i)^2}{\sigma}}$

$\mathcal{L}(\beta_0,\beta_1) = \prod_i p(y_i) = (\frac{1}{\sqrt{2\sigma}})^ne^{-\frac{\sum_i(y_i-\beta_0 - \beta_1x_i)^2}{\sigma}}$

$\hat{\beta}_0,\hat{\beta}_1=argmax_{\beta_0,\beta_1}\mathcal{L}(\beta_0,\beta_1)$

$\beta_0 = \overline{y}-\beta_1\overline{x}$

$\hat{\beta}_1 = \frac{1}{\sum_i(x_i-\overline{x})^2}\sum_i(x_i-\overline{x})y_i$

推荐系统中的估计偏差类型

选择偏差

用户可以自由选择给哪些物品打分，不给哪些物品打分，采用打分物品作为样本，估计未打分物品的评分，不满足独立同分布采样条件，因此存在估计偏差。

比如 $(x_i, y_i), i\in[n]$ 表示从总体中采样的容量为 n 的样本集，为了从样本观测值估计未打分物品的评分，我们采用回归模型： $y=f(x；\theta) + \epsilon$ ，并最小化期望风险 $\mathcal{L} = E[\delta(f(x;\theta), y)] \approx \frac{1}{n}\sum_i\delta(f(x_i),y_i)$ 求解参数 $\theta$ 估计值 $\hat{\theta}$ 以及评分估计值 $\hat{y} = f(x;\hat{\theta})$ 。将 $\mathcal{L} = E[\delta(f(\theta;\theta), y)]$ 称为期望风险， $L=\frac{1}{n}\sum_i\delta(f(x_i;\theta),y_i)$ 称为经验风险，当采样过程不满足独立同分布条件时，经验风险的降低并不能保证期望风险的降低。在满足独立同分布采样条件下，有霍夫丁不等式得出 $P(|L-\mathcal{L}|> e) \le 2exp(-2\frac{ne^2}{U-B})$ ，其中 U, B 表示 $\delta(f(x;\theta),y)$ 的上界和下界。因此满足独立同分布的条件下，样本容量足够多的时候可以得到期望风险最小估计。

曝光偏差

曝光给用户的物品是总体样本的一部分，推荐系统选择哪些物品曝光不满足独立同分布条件，因此存在估计偏差。偏差的原因类似用户选择偏差。

从众偏差

一些研究提出从众偏差，定义为用户对物品的评价会受到其他人的评价的影响，偏离自己的判断。此类偏差与选择和曝光偏差不同，并不存在采样偏差。群体的评价与用户评价存在显著的相关性。

位置偏差

用户倾向于与推荐结果中位置靠前的内容产生交互。

归纳偏差

归纳偏差是模型为了更好的学习和更好的泛化效果而加入的假设。结构偏差的另一种理解是降低模型的结构风险。

流行度偏差

马太效应，热门的物品会得到更多的曝光，从而会更加热门。

公平性研究是推荐系统另一个关注的问题，存在多种定义，可以大致分为四种类型：

无感知公平性:
- 如果建模过程中没有使用任何敏感特征，则模型是公平的
- 通过不使用敏感特征，保证敏感群体的公平性；模型中没有采用敏感特征作为决策因子。
- 过程公平，但结果不一定公平
个体公平性 :
- 模型给相似的个体相似的预测结果，则模型是公平的。 $\hat{Y}(X(i),A(i))\approx \hat{Y}(X(j),A(j))$
- 结果公平
人口统计公平性
- 敏感群体收到正向估计结果的概率相等 : $P(\hat{Y}|A=0) = P(\hat{Y}|A=1)$
- 结果公平
机会均等:
- 给定预测模型，每个敏感群体属于正例的似然相等： $P(\hat{Y}|A=0,Y=1) = P(\hat{Y}|A=1, Y=1)$
Counterfactual Fairness:
- $P(\hat{Y}_{A\leftarrow a}(U)|X=x,A=a) = P(\hat{Y}_{A\leftarrow a'}(U)|X=x,A=a)$

公平性 & 准确性平衡：

准确性和公平性之间的平衡在推荐场景下很重要，平等对待关于敏感特征的不同群体已经被证明有损于推荐性能。

jony0917

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数理统计与推荐系统

社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系，对这些关系的观测，规律的研究，有利于提升对社会活动或自然现象的变化规律的理解，并进一步利用规律对活动或现象进行预测、干预。变量之间的关系有些属于确定性的关系，也就是当其中某些变量的取值确定后，另外一些变量的取值可以完全确定。比如某商品售价 10 元一件，当销售量 x 确定后，销售额 y 可以通过方程 y=10xy = 10xy=10x 完全确定。还有些变量之间虽然存在密切的联系，但是当其中某些变量取值确定后，另外的变量的取值并不能完
复制链接

扫一扫