【机器学习】数学基础——概率统计篇(1)

最新推荐文章于 2021-01-17 15:58:36 发布

AlvaIce

最新推荐文章于 2021-01-17 15:58:36 发布

阅读量408

点赞数

分类专栏：机器学习数学基础

本文链接：https://blog.csdn.net/sinat_23854139/article/details/89314288

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

数学基础

3 篇文章 0 订阅

订阅专栏

文章目录

一、条件概率与贝叶斯公式

随机事件 $A, B$ 发生的条件概率：
$P(A,B)=\frac{P(A|B)}{P(B)},P(A,B)=\frac{P(B|A)}{P(A)}$

贝叶斯定理：通常，事件 A 在事件 B 发生的条件下的概率，与事件 B 在事件 A 发生的条件下的概率是不一样的；然而，这两者是有确定关系的，贝叶斯定理就是这种关系的陈述： $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

二、数学期望、方差与条件期望

在概率论和统计学中，数学期望（或均值）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。

条件期望是一个实数随机变量的相对于一个条件概率分布的期望值。换句话说，这是给定的一个或多个其他变量的值一个变量的期望值。它也被称为条件期望值。

随机变量包括离散型和连续型，数学期望、方差与条件期望的计算也分离散型和连续型。

(1)离散型：设离线型变量 $X$ 的分布律为 $P\{ X=x_k\}=p_k,k=1,2,...。$ 若级数 $\sum_{k=1}^{\infty} x_{k} p_{k}$ 绝对收敛，则称级数 $\sum_{k=1}^{\infty} x_{k} p_{k}$ 为随机变量 $X$ 的数学期望，记为 $E (X)$ ，方差记为 $D (x)$ ,即
$E(X)=\sum_{k=1}^{\infty} x_{k} p_{k}$ $D(x)=\sum\left(x_{k}-\mathrm{E}(X)\right)^{2} p\left(x_{k}\right)$
设 $X$ 和 $Y$ 是离散随机变量，则 $X$ 的条件期望在给定事件 $Y = y$ 条件下(其中，是 $x$ 处于 $X$ 的值域)： $\mathrm{E}(X | Y=y)=\sum_{x \in \mathcal{X}} x \mathrm{P}(X=x | Y=y)=\sum_{x \in \mathcal{X}} x \frac{\mathrm{P}(X=x, Y=y)}{\mathrm{P}(Y=y)}$
(2)连续型：设连续性随机变量 $X$ 的概率密度为 $f (x)$ ，若积分 $\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x$ 绝对收敛，则称积分 $\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x$ 的值为随机变量 $X$ 的数学期望，记为 $E (X)$ ，方差记为 $D (x)$ ,即 $E(X)=\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x$ $D(x)=\int_{-\infty}^{+\infty}(x-\mathrm{E}(X))^{2} f(x) d x$ 现在X是一个连续随机变量，而在Y仍然是一个离散变量，条件期望是：
$\mathbf{E}(X | Y=y)=\int_{x} x f_{x}(x | Y=y) d x$

三、大数定律

大数定律说如果统计数据足够大，那么事物出现的频率就能无限接近他的期望值。

切比雪夫大数定理
设 $x_{1}, x_{2}, \cdots, x_{n}$ 是一列相互独立的随机变量(或者两两不相关)，他们分别存在期望 $E\left(x_{k}\right)$ 和方差 $D\left(x_{k}\right)$ 。若存在常数 $C$ 使得： $D\left(x_{k}\right) \leq C(k=1,2, \cdots, n)$ ，则对任意小的正数 $ε$ ，满足公式一：
$\lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{k=1}^{n} x_{k}-\frac{1}{n} \sum_{k=1}^{n} E (x_{k})\right|<\varepsilon\right\}=1$
随着样本容量 $n$ 的增加，样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
伯努利大数定律
设 $μ$ 是 $n$ 次独立试验中事件 $A$ 发生的次数，且事件 $A$ 在每次试验中发生的概率为 $P$ ，则对任意正数 $ε$ ，有公式二：
$\lim _{n \rightarrow \infty} P\left(\left|\frac{\mu_{n}}{n}-p\right|<\varepsilon\right)=1$ 该定律是切比雪夫大数定律的特例，其含义是，当 $n$ 足够大时，事件 $A$ 出现的频率将几乎接近于其发生的概率，即频率的稳定性。
辛钦大数定律
(常用的大数定律)设 $\left\{a_{i}, i \geq 1\right\}$ 为独立同分布的随机变量序列，若 $a_{i}$ 的数学期望存在，则服从大数定律，对任意正数 $ε$ ，有公式三：
$\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^{n} a_{i}-\mu\right|<\varepsilon\right)=1$