数据挖掘中的一些概率论知识

最新推荐文章于 2021-10-23 10:59:14 发布

ypfzhao

最新推荐文章于 2021-10-23 10:59:14 发布

阅读量4k

点赞数

分布混合（Distribution Mixtures）

应用

介绍

为什么我们需要概率论基础才能理解机器/深度学习算法？

上述问题的答案是本文背后的主要动机。机器学习/深度学习通常处理的时随机量，可以认为是非确定性的。这与在计算机科学领域产生的确定性量有很大不同。因此当希望能够在不确定的环境中进行推理时，概率论则是帮助我们这样做的工具。

是什么让系统容易出现这些不确定性呢？

首先，确定性系统可以被认为是在未来状态的发展中绝对不存在随机性的系统。以牛顿第二运动定律为例。我们可以确定一个加速系统的未来状态。结果不是随机的。

另一方面，非确定性系统是不确定性的(或者在未来的状态中包含相当数量的随机性)。例如，抛硬币是一个不确定的过程，因为结果包含随机性(正面或反面，没有办法确定哪个结果会出现)。

在系统中引入随机行为的方法有很多种。

系统可能本质上是随机的，就像量子力学模型一样。在这种情况下，我们无法对系统状态做出确定性论证。或者，由于我们对系统的变量有完整的了解，因此可能存在确定性的系统。现在，如果我们失去对这些变量的一些了解，我们就失去了能够确定系统未来发展状态的能力。因此，确定性系统变成了非确定性系统。

随机变量

如上所述，不确定性系统可能有多个可能的结果。例如，抛硬币可能有两种不同的，等可能的结果——正面或反面。

一个随机变量可以被认为是一个变量，其可能的值是被建模的非确定性系统的结果。例如，我们可以定义一个随机变量X，它表示抛硬币的结果。因此，当结果是正面时，X取1，当结果是反面时，X = 0。随机变量X取{0,1}中的一个值。

形式上，如果S是概率度量结果的样本空间，X是定义在S的元素上的实值函数，那么X是一个随机变量(或者描述系统在实验结果中可能处于的状态)。

随机变量可以是离散的（如果它覆盖有限或可数无限数量的状态）或连续的（如果它涵盖不可数的无限数量的状态）。

考虑映射和双射的通常定义：

映射定义：设Ａ和Ｂ是两个非空集合，Ｆ是一个法则，如果对Ａ中任一元素ｘ，依照法则Ｆ,Ｂ中有某一元素Ｙ与Ｘ相对应，就称Ｆ为一个从Ａ到Ｂ的映射。
双射定义：设Ａ和Ｂ是两个非空集合，Ｆ是一个映射，如果对B中任一元素，依照映射F，A中都有其唯一的原像，就称Ｆ为一个从Ａ到Ｂ的双射。其实既是单射又是满射，则是双射。双射也就是一一对应的关系。

机器学习/深度学习的概率论

概率分布函数

简单地说，概率分布函数（PDF）告诉您随机变量对特定值的可能性。例如，在我们投掷硬币的例子中，X =正面的概率分布是0.5（或者当事件发生时硬币作为正面出现的概率为0.5）。

P（X = x）= f（x）由x~f（x）表示

PDF可以被认为是从状态值到其发生概率的映射。

概率质量函数（PMF）

这是离散随机变量的概率分布函数。考虑投掷两个骰子的实验，假设X是描述骰子点数之和的随机变量。

机器学习/深度学习的概率论

您可以在此处看到X的值状态如何映射到上面定义的表中它们各自的概率。

概率密度函数

这是连续变量的概率分布函数。与将X的概率与特定值X相关联的概率质量函数相反，密度函数与X的关系是X落在无限小区域的概率，测量是dx(其中：测量=长度(单变量分布)、面积(双变量分布)、体积(三变量分布)等)。相关概率可以由f(x). dx给出。

我们显然可以通过重复累加f（x）.dx给出的无穷小区域的概率来应用积分计算，来计算X 在任意两个极限（比如a和b，使得a≤b）之间的测量值的概率。

机器学习/深度学习的概率论

即，X取a和b之间的值的概率是a和b之间的无穷小概率的积分。

期望值

随机变量的期望值可以被认为是变量在根据概率分布f（x）绘制时所取的平均值。计算如下：

机器学习/深度学习的概率论

图1：计算离散随机变量的期望值

机器学习/深度学习的概率论

图2：计算连续随机变量的期望值

同样的，随机变量的方差可以被看作是当X从概率分布f(X)中提取时，随机变量的函数值的变化量。方差是（X - mean）的平方的期望值。

机器学习/深度学习的概率论

图3：方差作为X值和平均值之差的平方的期望值（由E（X）计算）

机器学习/深度学习的概率论

图4：使用图1中的等式扩展图3中的等式

协方差

协方差是指有多少变量是相互关联的。以协方差矩阵为例:

机器学习/深度学习的概率论

在第一行的矩阵中，150是A的方差，-90是A和B的协方差，100是A和C的协方差，依此类推。

机器学习/深度学习的概率论

图5：使用期望函数计算协方差

图5显示了上表中描述的协方差的计算，其中f（x，y）是随机变量X和Y的联合概率分布。上述方程可以求解，得到cov（X，Y）= E（ XY） - E（X）.E（Y）

从表格中可以得出某些推论。负协方差意味着当一个变量的值增加时，另一个变量趋于取更低的值。正协方差的情况则相反(两个变量往往同时取高值或低值)。自变量的协方差为0(因为它们不相互依赖，一个变量的值不影响另一个变量的值)。然而，0协方差并不一定意味着变量的无关。

预定义的概率分布

有几个预定义的概率质量和概率密度函数。

伯努利分布

伯努利分布亦称“零一分布”、“两点分布”，它只能取2个值。所以，例如，假设我有一枚硬币，当它被抛出时，它正面的概率是。因此它背面的概率是1-（硬币投掷没有其他可能的结果）。

形式上，伯努利分布由表示成功概率的单个参数参数化：

机器学习/深度学习的概率论

伯努利分布参数

现在考虑以下内容：

机器学习/深度学习的概率论

图6：根据伯努利参数，结果{0,1}的概率

这里，X取值1（我们的例子正面的情况）的概率由参数phi给出（它取0到1之间的某个值）。同样，其他发生的概率（结果为背面）是（1- phi）。我们可以将这两种概率组合成一个由下式给出的广义陈述：

机器学习/深度学习的概率论

图7：您可以尝试放置x = 1和x = 0的值，以查如何返回单个概率

利用如上所述的期望值和方差的概念，可以找到该分布的均值和方差：

机器学习/深度学习的概率论

图8：伯努利参数的伯努利分布的均值和方差

二项分布

二项分布可以被认为是n个独立且相同分布的伯努利随机变量的总和，其中每个伯努利随机变量采用两个值{0,1}中的一个。

n个独立且相同分布的伯努利变量之和的含义是我们重复相同的实验n次，每个实验的结果与其他实验的结果无关。我们还定义了参数p（其与伯努利分布中的参数phi相同），其表示随机变量在实验的n个实例中，在该实验的实例中取值1的概率。二项分布因此如下：

机器学习/深度学习的概率论

图9：二项分布。n和p是控制k分布的参数

例如，需要5次投掷硬币。现在定义一个随机变量X，它表示得到的正面数。因此，X可以取{0,1,2,3,4,5}中的任何值。这里n = 5(实验重复次数)。如果我们将伯努利变量X [i]定义为第i次抛硬币的结果，我们需要添加X [1]，X [2]，...，X [5]以获得我们期望的值X。另外注意X [1]，X [2]，...，X [5]是相互独立的，或者一个硬币抛掷不依赖于其他硬币投掷。

我们可以通过将这些变量放在图9中给出的分布中直接计算Pr（k = 2; n = 5，p = 0.5）。这将输出找到2个正面的概率，前提时我们抛（means p = 0.5）硬币5次。

高斯分布（正态分布）

这是连续随机变量的最基本的分布函数。这通过分布的均值和方差进行参数化，如下所示：

机器学习/深度学习的概率论

图10：高斯分布函数

函数的图形如下:

机器学习/深度学习的概率论

图11：高斯分布函数

在我们对随机变量的分布一无所知的情况下，高斯分布是明智的选择。因此，假设值将遵循正态分布，其中在平均值之上和之下具有相等数量的测量值，平均值是分布的峰值。例如，我们被赋予了建模连续随机变量的任务，我们对其分布一无所知。在这种情况下，明智的做法是对变量的分布做最少的假设，选择高斯分布函数(高斯分布函数在所有方差有限的分布中引入了X分布的最大不确定性)。

如果我们希望对多变量分布建模，我们可以将高斯分布为：

机器学习/深度学习的概率论