概率与统计

1.概率和统计是一个东西吗?

概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

--------------------- 
作者:nebulaf91 
来源:CSDN 
原文:https://blog.csdn.net/u011508640/article/details/72815981 


2.联合概率分布

联合概率分布简称联合分布,是两个及以上随机变量组成的随机向量的概率分布。(e.g. 打靶时命中的坐标(x,y)的概率分布就是联合概率分布(涉及两个随机变量))

根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以函数的形式表示;对于连续型随机变量,联合概率分布通过一非负函数的积分表示。

2.1 离散型联合概率分布

假设X和Y都是离散型分布

  先看X的概率分布:
  X      0        1
  p     0.4     0.6

  再看Y的概率分布:
  Y     0          1      2
  p    0.25    0.5    0.25

  又因为X与Y相互独立,所以(X,Y)的联合概率分布为:
  X\Y      0         1          2
        0       0.1      0.2       0.1
        1      0.15     0.3      0.15

2.2 连续型联合概率分布



--------------------- 
作者:五癫 
来源:CSDN 
原文:https://blog.csdn.net/tiankong_/article/details/78332666 


3 似然函数

在统计里面,似然函数和概率函数却是两个不同的概念

对于函数:P(x|θ)
输入有两个:x表示某一个具体的数据;θ表示模型的参数。

如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

3.1 最大似然估计(MLE)


假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为θ)各是多少?

这是一个统计问题,回想一下,解决统计问题需要什么? 数据!

于是我们拿这枚硬币抛了10次,得到的数据(x0x0)是:反正正正正反正正正反。我们想求的正面概率θθ是模型参数,而抛硬币模型我们可以假设是 二项分布。

那么,出现实验结果x0x0(即反正正正正反正正正反)的似然函数是多少呢?


注意,这是个只关于θ的函数。而最大似然估计,顾名思义,就是要最大化这个函数,就是找到函数值最大时对应的参数θ值。

f(θ)的图像:


--------------------- 
作者:nebulaf91 
来源:CSDN 
原文:https://blog.csdn.net/u011508640/article/details/72815981 


先验概率:

事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。

后验概率:

事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。

条件概率:

一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。

贝叶斯公式:

贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件x已经发生的条件下,分割中的小事件y的概率)

P(y|x) = ( P(x|y) * P(y) ) / P(x)
这里:
P(y|x) 是后验概率,一般是我们求解的目标。
P(x|y) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
P(x) 其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。

实例:

假设y是文章种类,是一个枚举值;x是向量,表示文章中各个单词的出现次数。在拥有训练集的情况下,显然除了后验概率P(y|x)中的x来自一篇新文章无法得到,p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。
作者:Babyzpj
链接:https://www.jianshu.com/p/865c75449659
來源:简书
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值