概率基础

最新推荐文章于 2022-09-04 14:51:20 发布

楚来客

最新推荐文章于 2022-09-04 14:51:20 发布

阅读量681

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/u010202588/article/details/93338449

版权

数学专栏收录该内容

3 篇文章 0 订阅

订阅专栏

概率基础概念

概率论—研究和揭示随机现象的统计规律的科学。随机现象是已知的，知道发生了什么，然后研究这些事情的规律。

概率：事件A发生的概率。P(A)，f(x)分别表示离散型和连续型变量的概率，对连续型来说也叫概率密度函数。

随机变量：包括连续型随机变量和离散型随机变量；

数学期望：E(x), 简单理解就是随机变量的平均值。E是expected value的意思。

方差：，D(X)，Var（X）或DX。方差表示的是变量X所有取值与其平均值，也就是数学期望之间的离散程度。是一个整体的属性，而非单个样本的属性。可以描述为D(X)=E{[X-E(X)]^2}，也可以用如下公式表述。

为总体均值，为总体例数。

方差样本数目有限时，方差的计算可以表示为：，之所以除以n-1而不是除以n，是因为这样能使我们以较小的样本集更好的逼近总体的标准差，即统计上所谓的“无偏估计”。

标准差：方差的平方根。跟方差的物理含义一致，也是表述的变量与数学期望之间的离散程度。但是因为方差是差值的平方，所以会把真实的离散程度进行扩大。而标准差消除了这一点。但是方差和标准差，因为计算过程中的平方关系，都把变量与其数学期望的偏离方向给消除了。能包含这个因素的是下面描述的协方差。

以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。

协方差：COV(X，Y)=E[(X-E(X))(Y-E(Y))]。协方差用于衡量两个变量的总体误差。其首先需要是一组二元随机变量，二元随机变量才有样本对。对于一元随机变量，只有方差和标准差，方差也可以看做是协方差的一个特例。但最为核心的一点还是协方差反应了两个变量的变化趋势是否一致，其把每一组样本与相应平均值的差作为一个新的变量，再重新求数学期望。

其计算公式如下：

如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

协方差矩阵：协方差只能处理二维问题，那维数多了自然就需要计算多个协方差，多个协方差按照矩阵的形式进行组织，则比较直观简单。举一个简单的三维的例子，假设数据集有三个维度，则协方差矩阵为如下。协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差。协方差矩阵在工程当中有很多现实的应用，比如通信中不同用户之间计算两两用户的相关性时，由于用户数目众多，会经常采用矩阵的形式。

相关系数：相关系数是协方差的一种标准化。协方差仅能进行定性的分析，并不能进行定量的分析。协方差值的大小，跟变量的数学期望关系很大，也就是这一组变量值整体都比较大时，实际上其均值、方差、协方差等都可能比较大。所以不同变量之间的对比也就失去了意义。随机变量X和Y的(Pearson)相关系数的定义：