统计学习方法第一章公式推导

亲持红叶

已于 2022-07-29 00:22:01 修改

阅读量435

点赞数

分类专栏：统计学习方法公式推导文章标签：学习机器学习算法

于 2022-07-21 23:46:14 首次发布

本文链接：https://blog.csdn.net/hbkybkzw/article/details/125923291

版权

统计学习方法公式推导专栏收录该内容

15 篇文章 2 订阅

订阅专栏

文章目录

一、第一篇监督学习
- 第一章统计学习及监督学习概论

一、第一篇监督学习

第一章统计学习及监督学习概论

定理1.1–泛化误差上界

泛化误差：（generalization error）

若学习到的模型为 $\hat{f}$ ,则用这个模型对未知数据集预测的误差称为泛化误差，它表现的是模型对未知数据的预测能力,事实上泛化误差就是所学习到的模型的期望风险
$\begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned}$
期望风险：
$R (f) = E [L (Y, f (x))]$
经验风险:
$\hat{R} (f) = \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$
泛化误差上界定理

定理 $1.1$ (泛化误差上界) 对二类分类问题, 当假设空间是有限个函数的集合 $\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}$ 时, 对任意一个函数 $\in \mathcal{F}$ , 至少以概率 $1-\delta, 0<\delta<1$ , 以下不等式成立:
$\leqslant \hat{R}(f)+\varepsilon(d, N, \delta)$
其中,
$\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$
d为假设空间中备选模型的数量，N为样本数量
Hoeffiding不等式

设有随机变量 $x_1,x_2,...,x_n$ 的独立随机变量序列， $S_n=\sum\limits_{i=1}^Nx_i$ 是独立随机变量之和， $E(S_n) = E(\sum\limits_{i=1}^Nx_i)$ 为随机变量和的期望, $x_i\isin[a_i,b_i]$ (x取值在 $a_i$ 和 $b_i$ 之间)，则对任意 $t > 0$ ,以下不等式成立
$P\left(S_{n}-E\left(S_{n}\right) \geqslant t\right) \leqslant e^{\left(\frac{-2 t^{2}}{\sum\limits_{i=1}^n\left(b_{i}-a i\right)^{2}}\right)}$
或者
$P\left(E\left(S_{n}\right)-S_{n} \geqslant t\right) \leqslant e^{\left(\frac{-2 t^{2}}{\sum\limits_{i=1}^n\left(b_{i}-a i\right)^{2}}\right)}$
在这里 $b_i-a_i)^2$ 可以看成是常数

二分类问题泛化误差上界定理证明

二分类问题，有随机变量 $x_1,x_2,...,x_n$ 的独立随机变量序列， $S_n=\sum\limits_{i=1}^nx_i$ ,如果其损失函数取值区间为 $[0, 1]$ ,即 $x_i \isin[0,1]$ , $\bar{X}$ 是独立变量的均值，即 $\bar{X}=\frac{S_n}{n}=\frac{1}{N} \sum\limits_{i=1}^{N} X_{i}$ ，那么 $E(\bar X_n) = \frac{1}{n}E(S_n)$ ,则有以下公式成立
$P(\bar X_n - E(\bar X_n)\geq t) = P(\frac{S_n}{n}-\frac{E(S_n)}{n}\geq t) = P(S_n-E(S_n)\geq nt)$
那么根据Hodffding不等式
$\begin{aligned} P(\bar X_n - E(\bar X_n)\geq t) & = P(S_n-E(S_n)\geq nt) \\ & \leq e ^{\left(\frac{-2 n^2 t^{2}}{\sum\limits_{i=1}^n\left(b_{i}-a i\right)^{2}}\right)} \end{aligned}$
因为 $b_i-a_i)^2$ 可看成常数（在这里是0）所以后面的小于等于实际上为 $e^{-n}$ 阶，当n趋于无穷打时候， $e^{-n}$ 是趋于0的，即当样本量很大的时候，该随机变量均值到均值期望之间大于等于一个数（t）的概率是很小的（趋于0的）。

从分类问题的模型假设空间 $\mathcal F$ ( $\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}$ 是个有限集合)中任选一个备选模型f，其训练集经验风险为
$\hat{R} (f) = \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$
测试集期望风险为：
$R (f) = E [L (Y, f (x))]$
则利用上面转换的公式，将 t 换成 $\epsilon$ ,区间取值[a,b]换成[0,1],则幂函数上的指数变为 $-\frac{2N^2\epsilon^2}{N}=-2N\epsilon^2$
$P(R(f)-\hat{R}(f) \geqslant \varepsilon) \leqslant \exp \left(-2 N \varepsilon^{2}\right)$
上述公式为从假设空间中任选的一个模型，假设空间中共有d个备选模型，我们并不知道我们未来将要使用哪个模型，我们期望这d个备选模型在训练集上的经验风险 $\hat R(f)$ 和测试集上的期望风险 $R (f)$ 之间的差值都不打，即我们期望这两个风险之间的差值大于等于某个数（比如这里的 $\epsilon$ ,原则上这个数要足够小）的概率要非常低，即在假设空间中至少存在一个模型满足这个条件,用以下公式来表达：
$\begin{aligned} P(\exists f \in \mathcal{F}: R(f)-\hat{R}(f) \geqslant \varepsilon) &=P ( \bigcup_{f \in \mathcal{F}}\{R(f)-\hat{R}(f) \geqslant \varepsilon\} ) \\ & \leqslant \sum_{f \in \mathcal{F}} P(R(f)-\hat{R}(f) \geqslant \varepsilon) \\ & \leqslant d e^{(-2 N \varepsilon^{2})} \end{aligned}$
这样我们考虑对立事件就是：任取一个模型，两个风险之间的差值都要以一个很大的概率小于某一个足够小的数 $\epsilon$

,等价的, 对任意 $\in \mathcal{F}$ , 有
$P(\forall f \in \mathcal{F}： R(f)-\hat{R}(f)<\varepsilon) \geqslant 1-d \exp \left(-2 N \varepsilon^{2}\right)$
令
$\delta=d e^ {(-2 N \varepsilon^{2})}$
则
$P(R(f)<\hat{R}(f)+\varepsilon) \geqslant 1-\delta$
即至少以概率 $1-\delta$ 有 $R(f)<\hat{R}(f)+\varepsilon$

其中
$\begin{aligned} \delta & = de^{(-2N\epsilon^2)}\\ \ln\delta & = \ln d -2N\epsilon^2 \\ 2N\epsilon^2 & = \ln d -\ln n\\ 2N\epsilon^2 & = \ln d + \ln {\frac{1}{\delta}}\\ \epsilon & = \sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \end{aligned}$

以上讨论的只是假设空间包含有限个函数情况下的泛化误差上界，对一半的假设空间要找到泛化误差界就没有那么简单了

极大似然估计和贝叶斯估计(掷硬币问题)

极大似然估计

在掷硬币实验中用1表示出现正面向上，用0表示出现反面向上,即
$x_i= \left\{ \begin{aligned} 1,\quad正面出现 \\ 0,\quad反面出现 \end{aligned} \right.$
估计出现正面向上的概率为 $\theta$ ,反面出现向上的概率为 $1-\theta$ ，$x_i \sim B(1.,\theta) $,概率分布函数为
$\theta^x(1-\theta)^{1-x} = \left\{ \begin{aligned} P(x=0) & = 1-\theta \\ P(x=1) & = \theta \end{aligned} \right.$
似然函数：
$\begin{aligned} L(\theta) & = P(X_1=x_1|\theta)*\cdots*P(X_n=x_n|\theta) \\ & = \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} \end{aligned}$
对数似然函数：
$\begin{aligned} \ln {L(\theta)} & = \ln { \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}} \\ & = \sum_{i=1}^n\left[ \ln\theta^{x_i} + \ln{(1- \theta)^{1-x_i} } \right]\\ & = \sum_{i=1}^nx_i\ln \theta + \sum_{i=1}^n(1-x_i)\ln{(1- \theta)} \\ & = \sum_{i=1}^nx_i\ln \theta + (n-\sum_{i=1}^nx_i)\ln{(1- \theta)} \end{aligned}$
目标： $\mathcal {max} \ln L(\theta)$

对 $\theta$ 求偏导
$\\ \frac{\partial\ln L(\theta)}{\partial \theta}=\frac{\sum\limits_{i=1}^nx_i}{\theta}-\frac{n-\sum\limits_{i=1}^nx_i}{1-\theta}$
令偏导数等于0，则
$\frac{\sum\limits_{i=1}^nx_i}{\theta}=\frac{n-\sum\limits_{i=1}^nx_i}{1-\theta}$
求出
$\hat {\theta} = \frac{1}{n}\sum\limits_{i=1}^nx_i$
贝叶斯估计

假设已知先验概率为 $\beta$ 分布
$\pi(\theta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1}$
求后验概率 $P(\theta \mathcal{|} x_1,x_2,...,x_n)$
$\begin{aligned} P(\theta \mathcal{|} x_1,x_2,...,x_n) & = \frac{P(\theta,x_1,x_2,...,x_n)}{P(x_1,x_2,...,x_n)} \\ & = \frac{\pi (\theta)*p(x_1|\theta)*\cdots*p(x_n|\theta)}{\int P(\theta,x_1,x_2,...,x_n) \mathcal{d} \theta} \\ &\propto \pi (\theta)*p(x_1|\theta)*\cdots*p(x_n|\theta) \\ & = \theta^{\alpha-1}(1-\theta)^{\beta-1}*\ln { \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}} \\ & = \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1} \end{aligned}$
备注：
1. 因为 $\int P(\theta,x_1,x_2,...,x_n) d\theta$ 已将 $\theta$ 积分挤掉了，所以与其无关，为一个常数;
2. $\propto$ ：正比于；
3. $\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)}$ 也是一个常数不考虑；
4. $\theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1}$ 是参数为 $\sum x_i + \alpha -1,n-\sum x_i +\beta -1$ 的 $\beta$ 分布
此时 $L(\theta)$ ：
$L(\theta) = \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1}$
对数似然：
$\ln L(\theta) = (\sum\limits_{i=1}^n x_i + \alpha -1)\ln \theta +(n-\sum \limits_{i=1}^n x_i +\beta -1)\ln(1-\theta)$
对 $\theta$ 求偏导 :
$\frac{\partial\ln L(\theta)}{\partial \theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{\theta} - \frac{n-\sum \limits_{i=1}^n x_i +\beta -1}{1-\theta}$
令偏导数等于0，则
$\frac{\sum\limits_{i=1}^n x_i + \alpha -1}{\theta} = \frac{n-\sum \limits_{i=1}^n x_i +\beta -1}{1-\theta}$
求出：
$\hat {\theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{n+\alpha +\beta -2}$
极大似然和贝叶斯总结
1. 对比极大似然 $\theta$ 估计值 $\hat {\theta} = \frac{1}{n}\sum\limits_{i=1}^nx_i$ 和贝叶斯估计值 $\hat {\theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{n+\alpha +\beta -2}$ ,当样本n趋于无穷大的时候，两者 $\theta$ 的估计值是区域一致的；
2. 贝叶斯估计中会给出参数的先验信息，当样本n足够大的时候，我们先前的先验信息和样本信息比就微不足道了，所以就近似于只用所有样本信息去估计 $\theta$ 所得到的结果；
3. 考虑极端情况下，n=1，通过极大似然估计，结果是0，或者是1，但是在贝叶斯估计中，若样本n=1，那么贝叶斯估计结果就是 $\frac{ \alpha }{\alpha +\beta -1}$ 或者 $\frac{ \alpha-1 }{\alpha +\beta -1}$ ,这是样本量雄安的时候，贝叶斯估计的优势所在。

推导正太分布均值的极大似然估计和贝叶斯估计

问题：
推导下述正太分布均值的极大似然估计和贝叶斯估计，数据 $x_1,x_2,...,x_n$ 来自正太分布 $\mathcal{N}(\mu,\sigma^2)$ ,其中 $\sigma^2$ 已知：
1. 根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的极大似然估计
2. 假设 $\mu$ 的先验分布是 $\mathcal{N}(0,\tau^2)$ ,根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的贝叶斯估计
1、根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的极大似然估计

样本的概率密度函数 $f(x_i)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) \quad i=1,2,.....,n$

似然函数：
$\begin{aligned} L(x_i;\mu) & = \prod_{i=1}^n f(x_i;\mu)\\ & = ({\sqrt{2 \pi} \sigma})^{-n} * \exp \left( -\frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \right) \end{aligned}$
对数似然函数：
$\begin{aligned} \ln L(x_i;\mu) & = -n \ln ({\sqrt{2 \pi} \sigma}) - \frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \\ \Rightarrow \quad \frac{\partial\ln L(x_i;\mu)}{\partial \mu} & = \frac{1}{\sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu) \\ & = \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu)\\ 令 \quad \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) & = 0 \\ \Rightarrow \quad \hat{\mu} & = \frac{1}{n}\sum\limits_{i=1}^nx_i \end{aligned}$
假设 $\mu$ 的先验分布是 $\mathcal{N}(0,\tau^2)$ ,根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的贝叶斯估计

先验分布 $f(\mu)=\frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right) \quad i=1,2,.....,n$
$\begin{aligned} P(\mu \mathcal{|} x_1,x_2,...,x_n) & = \frac{P(\mu,x_1,x_2,...,x_n)}{P(x_1,x_2,...,x_n)} \\ & = \frac{f (\mu)*p(x_1|\mu)*\cdots*p(x_n|\mu)}{\int P(\mu,x_1,x_2,...,x_n) \mathcal{d} \mu} \\ &\propto f (\mu)*p(x_1|\mu)*\cdots*p(x_n|\mu) \\ & = \frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right)*\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) \end{aligned}$
此时 $L(\theta)$ ：
$L(\theta) =\frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right)*\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right)$
对数似然：
$\begin{aligned} \ln P(\mu \mathcal{|} x_1,x_2,...,x_n) & = -\ln \sqrt{2 \pi} \tau-\frac{\mu^{2}}{2 \tau^{2}} -n \ln ({\sqrt{2 \pi} \sigma})-\frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \\ \Rightarrow \quad \frac{\partial\ln P(\mu \mathcal{|} x_1,x_2,...,x_n)}{\partial \mu}& = -\frac{\mu}{\tau^2} + \frac{1}{\sigma ^ 2}\sum\limits_{i=1}^n(x_i-\mu) \\ & = \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) - \frac{\mu}{\tau^2} \\ 令\quad \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) - \frac{\mu}{\tau^2} & = 0 \\ \Rightarrow \quad \frac{1}{\sigma^{2}}(\sum\limits_{i=1}^nx_i-n\mu) & = \frac{\mu}{\tau^2}\\ \Rightarrow \quad \hat{\mu} & = \frac{\tau^2\sum\limits_{i=1}^2x_i}{\sigma^2+n\tau^2}\\ & = \frac{\sum\limits_{i=1}^2x_i}{n+\frac{\sigma^2}{\tau^2}} \end{aligned}$
当n较小时候，贝叶斯估计比极大似然估计要准确一些