概率基础

概率基础概念

概率论—研究和揭示随机现象的统计规律的科学。随机现象是已知的,知道发生了什么,然后研究这些事情的规律。

概率:事件A发生的概率。P(A),f(x)分别表示离散型和连续型变量的概率,对连续型来说也叫概率密度函数。

随机变量:包括连续型随机变量和离散型随机变量;

数学期望:E(x), 简单理解就是随机变量的平均值。E是expected value的意思。

方差 ,D(X),Var(X)或DX。方差表示的是变量X所有取值与其平均值,也就是数学期望之间的离散程度。是一个整体的属性,而非单个样本的属性。可以描述为D(X)=E{[X-E(X)]^2},也可以用如下公式表述。

    为总体均值, 为总体例数。

方差样本数目有限时,方差的计算可以表示为:,之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。

标准差:方差的平方根。跟方差的物理含义一致,也是表述的变量与数学期望之间的离散程度。但是因为方差是差值的平方,所以会把真实的离散程度进行扩大。而标准差消除了这一点。但是方差和标准差,因为计算过程中的平方关系,都把变量与其数学期望的偏离方向给消除了。能包含这个因素的是下面描述的协方差。

以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。

协方差:COV(X,Y)=E[(X-E(X))(Y-E(Y))]。协方差用于衡量两个变量的总体误差。其首先需要是一组二元随机变量,二元随机变量才有样本对。对于一元随机变量,只有方差和标准差,方差也可以看做是协方差的一个特例。但最为核心的一点还是协方差反应了两个变量的变化趋势是否一致,其把每一组样本与相应平均值的差作为一个新的变量,再重新求数学期望。

其计算公式如下:

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差矩阵:协方差只能处理二维问题,那维数多了自然就需要计算多个协方差,多个协方差按照矩阵的形式进行组织,则比较直观简单。举一个简单的三维的例子,假设数据集有三个维度,则协方差矩阵为如下。协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。协方差矩阵在工程当中有很多现实的应用,比如通信中不同用户之间计算两两用户的相关性时,由于用户数目众多,会经常采用矩阵的形式。

相关系数:相关系数是协方差的一种标准化。协方差仅能进行定性的分析,并不能进行定量的分析。协方差值的大小,跟变量的数学期望关系很大,也就是这一组变量值整体都比较大时,实际上其均值、方差、协方差等都可能比较大。所以不同变量之间的对比也就失去了意义。随机变量X和Y的(Pearson)相关系数的定义:

其中:Var(X)为X的方差,Var(Y)为Y的方差。相关系统的绝对值肯定是小于等于1的,公式中通过除以x,y的标准差,消除了变量x,y均值大小的影响。使得不同的场景下的问题,其相关系数是具有可比性的。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值