概率论中均值方差标准差介绍及C++/OpenCV/Eigen的三种实现

最新推荐文章于 2023-11-24 21:34:08 发布

有点模糊

最新推荐文章于 2023-11-24 21:34:08 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/hddryjv/article/details/87896165

版权

分享一下我老师大神的人工智能教程。零基础！通俗易懂！风趣幽默！还带黄段子！希望你也加入到我们人工智能的队伍中来！https://blog.csdn.net/jiangjunshow

概率论是用于表示不确定性声明(statement)的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性声明的公理。在人工智能领域，概率论主要有两种用途。首先，概率法则告诉我们AI系统如何推理，据此我们设计一些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的AI系统的行为。

概率论使我们能够作出不确定的声明以及在不确定性存在的情况下进行推理，而信息论使我们能够量化概率分布中的不确定性总量。

1. 为什么要使用概率

机器学习通常必须处理不确定量，有时也可能需要处理随机(非确定性的)量。不确定性和随机性可能来自多个方面。

不确定性有三种可能的来源：(1)、被建模系统内在的随机性。(2)、不完全观测。即使是确定的系统，当我们不能观测到所有驱动系统行为的变量时，该系统也会呈现随机性。(3)、不完全建模。当我们使用一些必须舍弃某些观测信息的模型时，舍弃的信息会导致模型的观测出现不确定性。

在很多情况下，使用一些简单而不确定的规则要比复杂而确定的规则更为实用，即使真正的规则是确定的并且我们建模的系统可以足够精确地容纳复杂的规则。

概率可以被看作是用于处理不确定性的逻辑扩展。逻辑提供了一套形式化的规则，可以在给定某些命题是真或假的假设下，判断另外一些命题是真的还是假的。概率论提供了一套形式化的规则，可以在给定一些命题的似然后，计算其它命题为真的似然。

2. 随机变量

随机变量(random variable)是可以随机地取不同值的变量。就其本身而言，一个随机变量只是对可能的状态的描述；它必须伴随着一个概率分布来指定每个状态的可能性。

随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数；它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。

随机变量：给定样本空间(S、F)，如果其上的实值函数X: S→R是F(实值)可测函数，则称X为(实值)随机变量。初等概率论中通常不涉及到可测性的概念，而直接把任何X:S→R的函数称为随机变量。

如果X指定给概率空间S中每一个事件e有一个实数X(e)，同时针对每一个实数r都有一个事件集合A_r与其相对应，其中A_r={e:X(e)≤r}，那么X被称作随机变量。随机变量实质上是函数。如果随机变量X的取值是有限的或者是可数无穷尽的值，X={x₁,x₂,x₃,…,} 则称X为离散随机变量。如果X由全部实数或者由一部分区间组成，X={x|a≤x≤b}, -∞<a<b<∞，则称X为连续随机变量，连续随机变量的取值是不可数及无穷尽的。

随机变量在不同的条件下由于偶然因素影响，其可能取各种随机变量不同的值，具有不确定性和随机性，但这些取值落在某个范围的概率是一定的，此种变量称为随机变量。随机变量可以是离散型的，也可以是连续型的。简单地说，随机变量是指随机事件的数量表现。

随机试验结果的量的表示。一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量x是定义于Ω上的函数，即对每一基本事件ω∈Ω，有一数值x(ω)与之对应。

3. 概率分布

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

(1)、离散型变量和概率质量函数：

离散型变量的概率分布可以用概率质量函数(probability mass function, PMF)来描述。我们通常用大写字母P来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数，并且读者必须根据随机变量来推断所使用的PMF，而不是根据函数的名字来推断。

概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。P(X=x,Y=y)表示X=x和Y=y同时发生的概率。我们也可以简写为P(x,y)。

如果一个函数P是随机变量x的PMF，必须满足下面这几个条件：

1)、P的定义域必须是x所有可能状态的集合。

2)、x∈X, 0≤P(x)≤1.不可能发生的事件概率为0，并且不存在比这概率更低的状态。类似的，能够确保一定发生的事件概率为1，而且不存在比这概率更高的状态。

3)、∑_x_∈_XP(x)=1.我们把这条性质称之为归一化的(normalized)。如果没有这条性质，当我们计算很多事件其中之一发生的概率时可能会得到大于1的概率。

(2)、连续型变量和概率密度函数：

当我们研究的对象是连续型随机变量时，我们用概率密度函数(probability density function, PDF)而不是概率质量函数来描述它的概率分布。如果一个函数p是概率密度函数，必须满足下面这几个条件：

1)、p的定义域必须是x所有可能状态的集合。

2)、x∈X,p(x)≥0.注意，我们并不要求p(x)≤1。

3)、∫p(x)dx=1.

概率密度函数p(x)并没有直接对特定的状态给出概率，相对的，它给出了落在面积为δx的无限小的区域内的概率为p(x) δx。我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地，x落在集合S中的概率可以通过p(x)对这个集合求积分来得到。在单变量的例子中，x落在区间[a, b]的概率是∫_[a,b]p(x)dx

概率分布(probability distribution)：或简称分布，是概率论的一个概念。使用时可以有以下两种含义：

(1)、广义地，它指称随机变量的概率性质，当我们说概率空间(Ω、F、P)中的两个随机变量X和Y具有同样的分布(或同分布)时，我们是无法用概率P来区别它们的。换言之，称X和Y为同分布的随机变量，当且仅当对任意事件A∈F,有P(X∈A)=P(Y∈A)成立。但是，不能认为同分布的随机变量是相同的随机变量。事实上即使X与Y同分布，也可以没有任何点ω使得X(ω)=Y(ω)。在这个意义上，可以把随机变量分类，每一类称作一个分布，其中的所有随机变量都同分布。用更简要的语言来说，同分布是一种等价关系，每一个等价类就是一个分布。需注意的是，通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等，都是指各种类型的分布，而不能视作一个分布。

(2)、狭义地，它是指随机变量的概率分布函数。设X是样本空间(Ω、F)上的随机变量，P为概率测度，则称如下定义的函数是X的分布函数(distribution function)，或称累积分布函数(cumulative distribution function,简称CDF)：F_X(a)=P(X≤a)，对任意实数a定义。具有相同分布函数的随机变量一定是同分布的，因此可以用分布函数来描述一个分布，但更常用的描述手段是概率密度函数(probability density function, pdf)。

4. 边缘概率

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

例如，假设有离散型随机变量x和y，并且我们知道P(x,y)。我们可以根据下面的求和法则(sum rule)来计算P(x)：