MLAPP————第二章 概率论基础

说明

这篇博客主要是介绍概率论还有信息论的一些预备知识。主要以翻译为主,很多地方的结论也都是根据书上直接得到的,没有给出具体的求解过程。

第二章 概率

2.1 介绍

在进行更加技术性的内容之前,先不妨想一下什么是“概率”?我们经常会说:丢一枚硬币,正面朝上的概率是0.5。这句话的意思是什么。有两种不同的观点,一个是频率派的观点,他们认为概率就是你重复做一件事N次,如果事件发生了m次,那么概率就是m/N。从抛硬币角度,就是你抛了特别多次,那么往往有一半是正的,一半是反的。另一个则是贝叶斯(Bayesian)派的观点。他们是基于一些信息去量化某件事的不确定性。比如我认为硬币是密度均匀的,对称的圆的形状,所以我认为它正反的概率都是一样的0.5。贝叶斯解释的最大的好处就是它不需要多次重复尝试,比如问你地球什么时候毁灭,南极什么时候融化,这些问题都只能基于你拥有的信息,去给出这个事件发生的可能性。因为这种事件是不可重复的。

2.2 概率论的简要温习

这一部分内容主要就是对概率论的一些基本的内容进行简要的回顾。

2.2.1 离散随机变量

这里不具体详述,举个简单的例子,还是投一枚硬币,对于这个事件A,发生的情况有两种正面朝上,反面朝上。那么离散随机变量X的取值为0或者1。其概率分布就叫做pmf(probability mass function)。\large p(X = 0) + p(X=1) = 1\large 0\leq p(X=0),p(X=1)\leq 1

2.2.2 基本的运算法则

2.2.2.1 两个事件的并集的概率

\large p(A\vee B) = p(A)+p(B)-p(A\wedge B)如果A和B是互斥的,那么\bg_white \large p(A\vee B) = p(A)+p(B)

2.2.2.2 联合概率

A和B的联合概率p(A,B)=p(A\wedge B) = p(A|B)p(B) = p(B|A)p(A),这个也叫乘法原理。对于一个联合概率分布,我们可以计算它的边缘概率分布p(A),p(A)=\sum _bp(A,B)=\sum_bp(A|B=b)p(B=b),这个也叫做加法原理。下面介绍一个链式法则

p(X_1,X_2,\cdots,X_D) = p(X_1)p(X_2|X_1)p(X_3|X_2,X_1)\cdotsp(X_D|X_1,X_2,\cdots,X_D)

2.2.2.3 条件概率

对于事件A,B,条件概率p(A|B) =\frac{p(A,B)}{p(B)}, if p(B)>0

2.2.3 贝叶斯理论

贝叶斯理论综合运用了加法和乘法的原理。具体如下:

p(X=x|Y=y) = \frac{p(X=x,Y=y)}{p(Y=y)} = \frac{p(X=x)p(Y=y|X=x)}{\sum_{x'}p(X=x')p(Y=y|X=x')}

2.2.3.1 例子:医疗诊断

这里讲了一个关于诊断乳腺癌的例子,假设有一个仪器,如果你有乳腺癌,那么你被诊断出来有乳腺癌的概率是0.8,即p(x=1|y=1) = 0.8。这里事件x=1表示机器诊断出来你有乳腺癌,y=1表示事件你有乳腺癌。那么你如果被诊断出来有乳腺癌,你是否就认为你有80%的可能性患了乳腺癌呢。其实并不是,考虑p(y=1)=0.004,也就是一个人患乳腺癌的概率是0.004。我们假设如果你没有乳腺癌,那么机器判断你有的概率为0.1,即p(x=1|y=0) = 0.1。利用贝叶斯理论

那么可以看到,机器检测出你有乳腺癌,而实际上你有的概率只有0.031,所以这跟直觉上是不是相差很大呢。

2.2.3.2 例子:生成分类器

生成分类器利用公式

去进行分类,为什么称为生成分类器,因为它可以利用类条件概率p(\mathbf x|y=c)和类先验p(y=c)去生成数据。书后面会详细的讲这个,以及生成模型和判别模型的区别和优缺点。

2.2.4 独立和条件独立

如果变量X和Y是独立的,这里就是指无条件独立,那么X\perp Y\Leftrightarrow p(X,Y)=p(X)p(Y)。这个比较好理解,就是两个事情风马牛不相及,扯不上关系。

条件独立就是X\perp Y|Z\Leftrightarrow p(X,Y|Z)=p(X|Z)p(Y|Z)。公式很容易看懂,后面概率图模型中也会有很好的解释。不过一开始接触这个,我一直就理解不了,不知道怎么与实际对应起来。现在我就以自己的理解讲一下书上的例子。假设X是明天下雨,Y是今天地是湿的,Z是今天下雨。那么我说Y和X是关于Z独立的。为什么这么说,首先明天下雨跟今天地是湿的有关系,所以不独立,但是为什么有关系,因为地是湿的,所以很有可能今天下雨了,那么明天有可能会下雨的概率很大。但是我已经知道今天下雨了,所以我再去推断明天下不下雨,其实我完全就不需要知道地是否是湿的,所以就是独立的。这是我的个人理解,仅供参考。所以这里Y是通过Z影响X,我们通过Y去推断Z再去推断X,如果Z都知道了,那么你的Y就影响不到X了。

这里有个定理,如果X,Y关于Z是条件独立的,那么就存在两个函数g和h使得p(x,y|z) =g(x,z)h(y,z), p(z)>0,这对于所有x,y,z都成立。

2.2.5 连续随机变量

这个就不详细说了,连续随机变量的概率密度函数就是pdf,概率密度函数的关于负无穷到x的积分就是累积分布函数cdf。

2.2.6 分位数

分位数有上侧\alpha分位数,双侧\alpha分位数,具体就不写了,可以参考概率论的书。

2.2.7 均值和方差

均值就是E[X] = \sum xp(x) = \int xp(x)dx,积分域还有求和域就是x所能取到的所有的值。方差的定义和计算根据公式可以看到方差就是二阶矩减去均值的平方。标准差就是方差开根号。

2.3 一些常见的离散分布

2.3.1 二项分布和伯努利分布

假设投一枚硬币n次,那么正面朝上的次数X\in\{0,1,\cdots,n\}就是服从二项分布。假设每一次投正面朝上的概率为\thetaX\sim Bin(n,\theta)

其中

该分布的均值为n\theta,方差为n\theta(1-\theta)。这个利用定义很好算。伯努利分布就是二项分布n=1的特殊情况。可以写成两种形式

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值