数据挖掘中的一些概率论知识

目录

 

介绍

随机变量

概率分布函数

期望值

协方差

预定义的概率分布

分布混合(Distribution Mixtures)

应用

介绍

为什么我们需要概率论基础才能理解机器/深度学习算法?

上述问题的答案是本文背后的主要动机。机器学习/深度学习通常处理的时随机量,可以认为是非确定性的。这与在计算机科学领域产生的确定性量有很大不同。因此当希望能够在不确定的环境中进行推理时,概率论则是帮助我们这样做的工具。

是什么让系统容易出现这些不确定性呢?

首先,确定性系统可以被认为是在未来状态的发展中绝对不存在随机性的系统。以牛顿第二运动定律为例。我们可以确定一个加速系统的未来状态。结果不是随机的。

另一方面,非确定性系统是不确定性的(或者在未来的状态中包含相当数量的随机性)。例如,抛硬币是一个不确定的过程,因为结果包含随机性(正面或反面,没有办法确定哪个结果会出现)。

在系统中引入随机行为的方法有很多种。

系统可能本质上是随机的,就像量子力学模型一样。在这种情况下,我们无法对系统状态做出确定性论证。或者,由于我们对系统的变量有完整的了解,因此可能存在确定性的系统。现在,如果我们失去对这些变量的一些了解,我们就失去了能够确定系统未来发展状态的能力。因此,确定性系统变成了非确定性系统。

随机变量

如上所述,不确定性系统可能有多个可能的结果。例如,抛硬币可能有两种不同的,等可能的结果——正面或反面。

一个随机变量可以被认为是一个变量,其可能的值是被建模的非确定性系统的结果。例如,我们可以定义一个随机变量X,它表示抛硬币的结果。因此,当结果是正面时,X取1,当结果是反面时,X = 0。随机变量X取{0,1}中的一个值。

形式上,如果S是概率度量结果的样本空间,X是定义在S的元素上的实值函数,那么X是一个随机变量(或者描述系统在实验结果中可能处于的状态)。

随机变量可以是离散的(如果它覆盖有限或可数无限数量的状态)或连续的(如果它涵盖不可数的无限数量的状态)。

考虑映射和双射的通常定义:

  • 映射定义:设A和B是两个非空集合,F是一个法则,如果对A中任一元素x,依照法则F,B中有某一元素Y与X相对应,就称F为一个从A到B的映射。
  • 双射定义:设A和B是两个非空集合,F是一个映射,如果对B中任一元素,依照映射F,A中都有其唯一的原像,就称F为一个从A到B的双射。 其实既是单射又是满射,则是双射。双射也就是一一对应的关系。

机器学习/深度学习的概率论

 

概率分布函数

简单地说,概率分布函数(PDF)告诉您随机变量对特定值的可能性。例如,在我们投掷硬币的例子中,X =正面的概率分布是0.5(或者当事件发生时硬币作为正面出现的概率为0.5)。

P(X = x)= f(x)由x~f(x)表示

PDF可以被认为是从状态值到其发生概率的映射。

概率质量函数(PMF)

这是离散随机变量的概率分布函数。考虑投掷两个骰子的实验,假设X是描述骰子点数之和的随机变量。

机器学习/深度学习的概率论

 

您可以在此处看到X的值状态如何映射到上面定义的表中它们各自的概率。

概率密度函数

这是连续变量的概率分布函数。与将X的概率与特定值X相关联的概率质量函数相反,密度函数与X的关系是X落在无限小区域的概率,测量是dx(其中:测量=长度(单变量分布)、面积(双变量分布)、体积(三变量分布)等)。相关概率可以由f(x). dx给出。

我们显然可以通过重复累加f(x).dx给出的无穷小区域的概率来应用积分计算,来计算X 在任意两个极限(比如a和b,使得a≤b)之间的测量值的概率。

机器学习/深度学习的概率论

 

即,X取a和b之间的值的概率是a和b之间的无穷小概率的积分。

期望值

随机变量的期望值可以被认为是变量在根据概率分布f(x)绘制时所取的平均值。计算如下:

机器学习/深度学习的概率论

图1:计算离散随机变量的期望值

机器学习/深度学习的概率论

图2:计算连续随机变量的期望值

同样的,随机变量的方差可以被看作是当X从概率分布f(X)中提取时,随机变量的函数值的变化量。方差是(X - mean)的平方的期望值。

机器学习/深度学习的概率论

图3:方差作为X值和平均值之差的平方的期望值(由E(X)计算)

机器学习/深度学习的概率论

图4:使用图1中的等式扩展图3中的等式

协方差

协方差是指有多少变量是相互关联的。以协方差矩阵为例:

机器学习/深度学习的概率论

 

在第一行的矩阵中,150是A的方差,-90是A和B的协方差,100是A和C的协方差,依此类推。

机器学习/深度学习的概率论

图5:使用期望函数计算协方差

图5显示了上表中描述的协方差的计算,其中f(x,y)是随机变量X和Y的联合概率分布。上述方程可以求解,得到cov(X,Y)= E( XY) - E(X).E(Y)

从表格中可以得出某些推论。负协方差意味着当一个变量的值增加时,另一个变量趋于取更低的值。正协方差的情况则相反(两个变量往往同时取高值或低值)。自变量的协方差为0(因为它们不相互依赖,一个变量的值不影响另一个变量的值)。然而,0协方差并不一定意味着变量的无关。

预定义的概率分布

有几个预定义的概率质量和概率密度函数。

伯努利分布

伯努利分布亦称“零一分布”、“两点分布”,它只能取2个值。所以,例如,假设我有一枚硬币,当它被抛出时,它正面的概率是。因此它背面的概率是1-(硬币投掷没有其他可能的结果)。

形式上,伯努利分布由表示成功概率的单个参数参数化:

机器学习/深度学习的概率论

伯努利分布参数

现在考虑以下内容:

机器学习/深度学习的概率论

图6:根据伯努利参数,结果{0,1}的概率

这里,X取值1(我们的例子正面的情况)的概率由参数phi给出(它取0到1之间的某个值)。同样,其他发生的概率(结果为背面)是(1- phi)。我们可以将这两种概率组合成一个由下式给出的广义陈述:

机器学习/深度学习的概率论

图7:您可以尝试放置x = 1和x = 0的值,以查如何返回单个概率

利用如上所述的期望值和方差的概念,可以找到该分布的均值和方差:

机器学习/深度学习的概率论

图8:伯努利参数的伯努利分布的均值和方差

二项分布

二项分布可以被认为是n个独立且相同分布的伯努利随机变量的总和,其中每个伯努利随机变量采用两个值{0,1}中的一个。

n个独立且相同分布的伯努利变量之和的含义是我们重复相同的实验n次,每个实验的结果与其他实验的结果无关。我们还定义了参数p(其与伯努利分布中的参数phi相同),其表示随机变量在实验的n个实例中,在该实验的实例中取值1的概率。二项分布因此如下:

机器学习/深度学习的概率论

图9:二项分布。n和p是控制k分布的参数

例如,需要5次投掷硬币。现在定义一个随机变量X,它表示得到的正面数。因此,X可以取{0,1,2,3,4,5}中的任何值。这里n = 5(实验重复次数)。如果我们将伯努利变量X [i]定义为第i次抛硬币的结果,我们需要添加X [1],X [2],...,X [5]以获得我们期望的值X。另外注意X [1],X [2],...,X [5]是相互独立的,或者一个硬币抛掷不依赖于其他硬币投掷。

我们可以通过将这些变量放在图9中给出的分布中直接计算Pr(k = 2; n = 5,p = 0.5)。这将输出找到2个正面的概率,前提时我们抛(means p = 0.5)硬币5次。

高斯分布(正态分布)

这是连续随机变量的最基本的分布函数。这通过分布的均值和方差进行参数化,如下所示:

机器学习/深度学习的概率论

图10:高斯分布函数

函数的图形如下:

机器学习/深度学习的概率论

图11:高斯分布函数

在我们对随机变量的分布一无所知的情况下,高斯分布是明智的选择。因此,假设值将遵循正态分布,其中在平均值之上和之下具有相等数量的测量值,平均值是分布的峰值。例如,我们被赋予了建模连续随机变量的任务,我们对其分布一无所知。在这种情况下,明智的做法是对变量的分布做最少的假设,选择高斯分布函数(高斯分布函数在所有方差有限的分布中引入了X分布的最大不确定性)。

如果我们希望对多变量分布建模,我们可以将高斯分布为:

机器学习/深度学习的概率论

图12:多变量情景下的高斯分布

其中均值现在是一个向量,并且代替方差,我们使用由大写sigma表示的协方差矩阵(已在上一节中讨论过)。

指数和拉普拉斯分布

在深度学习中,我们需要调整神经网络的参数,以防止过拟合。从贝叶斯的观点来看,拟合正则模型可以解释为计算最大后验(MAP)估计。我们需要在x = 0(或者x = X分布的平均值)处有一个sharp point,以便有助于正则化。因此我们使用以下内容:

机器学习/深度学习的概率论

图13:指数分布在x = 0处引入一个峰值

其中,

机器学习/深度学习的概率论

图14:图13中的指示函数

指标函数用于为X的所有负值分配0概率。查看图形:

 

机器学习/深度学习的概率论

图15:指数分布函数图

指数分布描述了泊松点 过程中事件之间的时间,即事件以恒定的平均速率连续且独立地发生的过程。

类似地,如果我们想在X分布的均值处建立一个峰值模型,我们可以使用拉普拉斯分布函数,

机器学习/深度学习的概率论

图16:拉普拉斯分布

机器学习/深度学习的概率论

图17:拉普拉斯分布图。这里图中的b与图16中的等式中的伽马相同

这种拉普拉斯分布可以看作是两个指数分布背对背拼接在一起,从而在分布的均值处得到一个峰值(注意我们如何在上图中得到绿色曲线的变化,这可以通过拉普拉斯分布中的参数均值来实现)。

Dirac Delta分布

Dirac Delta函数用于聚集单个点周围的所有分布,并中和连续随机变量X的所有其他值的分布。

机器学习/深度学习的概率论

图18:Dirac Delta函数

上面的等式倾向于收集平均值周围的所有质量。更具体的示例是以下函数:

机器学习/深度学习的概率论

图19:Dirac Delta函数将质量集中在原点附近

这里,a是一个参数,其值用于定义峰值与原点的接近程度(或原点的质量浓度)。当a接近0时,峰变得无限窄和无限高。

您可以使用平均值参数化图19中的方程。这个函数看起来就像图18所示的方程,并在期望的点处产生一个峰值(而不是0)。

机器学习/深度学习的概率论

图20:Dirac Delta的变化

经验分布

经验分布是连续随机变量的多重分布。

经验分布利用Dirac Delta分布在这些点上的幂,将(1/m)质量(而不是狄拉克分布中的全部质量)集中在样本空间中的m个点上。考虑以下:

机器学习/深度学习的概率论

图21:经验分布

很明显,这个分布中心(1 / m)质量超过x(1),x(2),...,x(m)。

分布混合(Distribution Mixtures)

你可以结合这些分布,以产生更复杂的分布。让我们举一个你已经见过的分布混合的例子-经验分布。

经验分布如图21所示。它是我们所针对的每个m点上描述的Dirac delta函数的混合。考虑以下等式:

机器学习/深度学习的概率论

图22:分布混合方程

这里,c代表定义的不同component分布。在我们的例子中,我们有m个点,每个点都有Dirac Delta函数。因此,您可以将经验分布视为m个Dirac Delta分布的混合,其中每个分布都由它需要集中质量的点x(i)参数化。

如图22所示。意味着最终分布P(x)是单个分布分量c的多项式分布,计算方法是从m个Dirac Delta分布中选择第i个Dirac Delta分布的先验概率(或者说观察x之前的概率),然后从第i个Dirac Delta分布中采样x。

简单地说,你有m个 dirac delta分布,你选择其中之一,然后集中(1 / m)质量。然后,您选择另一个Dirac Delta分布并集中(1 / m)质量。继续这样做,直到所有Dirac Delta函数用完。最后,把它们加起来得到经验分布。

我们来讨论最终的分布混合,高斯混合模型。你也可以把这个混合看成是m个独立的分量,每个分量都是高斯分布,有独立的参数均值向量和协方差矩阵。现在看下图:

机器学习/深度学习的概率论

图23:高斯混合模型

这是高斯混合分布。您可以清楚地观察到三个不同的聚类。这些中的每一个都是高斯分布。请注意这些是如何以不同方式参数化的(我将根据协方差矩阵进行解释)。

  1. 左下分布具有各向同性协方差矩阵。因此,它在所有方向上的方差都是相同的
  2. 中间分布具有对角协方差矩阵。这意味着只有对角元素是非零的,或者两个变量的协方差都是0意味着它们是独立的。
  3. 右上角分布具有全秩协方差矩阵。

我希望这能解释为什么相同的分布和不同的参数可以组合成一个混合模型。

应用

指数分布有助于调节神经网络的参数,防止过拟合。

在探索数据(Santander客户交易预测)时,查看所有200个变量(匿名)的分布,看看是否有明显的关系。变量的分布可以提供关于您试图处理的数据的性质的重要信息。我附上了我得到的部分图表:

机器学习/深度学习的概率论

 

最上面一行的前3个图表示相同变量在不同组(用1和0表示)的不同分布,最上面一行的第4个图似乎是完全重叠的。因此,第四个变量可能不会影响到分组的分布,而第一个、第二个和第三个变量可能会影响到分组的分布。

©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页