数学学习笔记--概率论

2. 概率论

2.1 概率分布与随机变量

2.1.1 机器学习为什么要使用概率

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律

机器学习通常必须处理不确定量,有时候也需要处理随机量。几乎所有的活动都需要一些在不确定性存在的情况下进行推理的能力。

不确定性和随机性可能来自多个方面,不确定性有 3 种可能的来源:

  1. 被建模系统内在的随机性。比如纸牌游戏,假设纸牌被真正混洗成了随机顺序。
  2. 不完全观测。对于确定的系统,但是如果不能观测到所有驱动系统行为的变量时,该系统也会呈现随机性。比如让选手选择三扇门中的一个,并获得门后的奖品,每个门后的奖品是确定的,但是选手无法观测到,所以对于选手来说,结果是不确定的。
  3. 不完全建模。当采用一些必须舍弃某些信息的模型时,舍弃的信息可能导致模型的预测出现不确定性。

在很多情况下,采用简单而不确定的规则要比复杂而确定的规则更加的实用。

可以使用概率论来量化不确定性。 用概率来表示一种信任度,概率直接和事件发生的频率相联系的被称为频率派概率,比如说某件事发生的概率是 p,这表示如果反复试验无限次,有 p 的比例是发生这件事情;而涉及确定性水平的称为贝叶斯概率,比如说医生在对一个病人的诊断中判断其患某个病的概率是 p。

概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。

2.1.2 变量与随机变量有什么区别

随机变量(random variable)是可以随机地取不同数值的变量。

它表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

变量与随机变量的区别:
当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。

比如:
当变量 x x x值为100的概率为1的话,那么 x = 100 x=100 x=100就是确定了的,不会再有变化,除非有进一步运算.
当变量 x x x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

2.1.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是概率分布(probability distribution)**.

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是:

  • 概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常用大写字母 P P P表示。

  • 概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常用小写字母 p p p表示。

2.1.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率

  • 一般而言, P ( x ) P(x) P(x) 表示时   X = x  X=x  X=x的概率,概率为 1 表示 $ X=x$ 是确定的,概率是 0 表示 $ X=x$ 是不可能的;
  • 有时候为了防止混淆,要明确写出随机变量的名称 P ( P( P(x = x ) =x) =x)
  • 有时候需要先定义一个随机变量,然后制定它遵循的概率分布 x 服从 P ( P( P(x ) ) )

PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)表示 X = x X=x X=x   Y = y  Y=y  Y=y同时发生的概率,也可以简写成 P ( x , y ) P(x,y) P(x,y).

如果一个函数 P P P是随机变量 X X X 的 PMF, 那么它必须满足如下三个条件:

  • P P P的定义域必须是的所有可能状态的集合
  • ∀ x ∈ ∀x∈ xx, $0 \leq P(x) \leq 1 $.
  • ∑ x ∈ X P ( x ) = 1 ∑_{x∈X} P(x)=1 xXP(x)=1. 我们把这一条性质称之为归一化的(normalized),如果不满足这条性质,那么可能某件事情发生的概率会是大于 1。

2.1…5 连续型随机变量和概率密度函数

如果一个函数 p p p是x的PDF,那么它必须满足如下几个条件

  • p p p的定义域必须是x的所有可能状态的集合。
  • ∀ x ∈ X , p ( x ) ≥ 0 ∀x∈X,p(x)≥0 xX,p(x)0. 注意,我们并不要求$ p(x)≤1$,因为此处 p ( x ) p(x) p(x)不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。
  • ∫ p ( x ) d x = 1 ∫p(x)dx=1 p(x)dx=1, 积分下来,总和还是1,概率之和还是1.

注:PDF p ( x ) p(x) p(x)并没有直接对特定的状态给出概率,给出的是密度,相对的,它给出了落在面积为 δ x δx δx的无线小的区域内的概率为$ p(x)δx$.

由此,我们无法求得具体某个状态的概率,我们可以求得的是 某个状态 x x x 落在 某个区间 [ a , b ] [a,b] [a,b]内的概率为$ \int_{a}^{b}p(x)dx$.

2.1.6 举例理解条件概率

条件概率公式如下:
P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P(A|B) = P(A\cap B) / P(B) P(AB)=P(AB)/P(B)
说明:在同一个样本空间 Ω \Omega Ω中的事件或者子集 A A A B B B,如果随机从 Ω \Omega Ω中选出的一个元素属于 B B B,那么下一个随机选择的元素属于 A A A 的概率就定义为在 B B B的前提下 A A A的条件概率。

条件概率文氏图示意如图1.1所示。

图1.1 条件概率文氏图示意

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是 P ( A ⋂ B ) P(A\bigcap B) P(AB)除以 P ( B ) P(B) P(B)

举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)

穷举法:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。

条件概率法 P ( 女 ∣ 女 ) = P ( 女 女 ) / P ( 女 ) P(女|女)=P(女女)/P(女) P()=P()/P(),夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则 P ( 女 女 ) P(女女) P()为1/4, P ( 女 ) = 1 − P ( 男 男 ) = 3 / 4 P(女)= 1-P(男男)=3/4 P=1P()=3/4,所以最后 1 / 3 1/3 1/3

这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。

2.1.7 联合概率与边缘概率联系区别

区别:
联合概率:联合概率指类似于 P ( X = a , Y = b ) P(X=a,Y=b) P(X=a,Y=b)这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率

边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于 P ( X = a ) P(X=a) P(X=a) P ( Y = b ) P(Y=b) P(Y=b)这样,仅与单个随机变量有关的概率。

联系:

联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。

2.1.8 条件概率的链式法则

由条件概率的定义,可直接得出下面的乘法公式:
乘法公式 设 A , B A, B A,B是两个事件,并且 P ( A ) > 0 P(A) > 0 P(A)>0, 则有
P ( A B ) = P ( B ∣ A ) P ( A ) P(AB) = P(B|A)P(A) P(AB)=P(BA)P(A)
推广
P ( A B C ) = P ( C ∣ A B ) P ( B ∣ A ) P ( A ) P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(CAB)P(BA)P(A)
一般地,用归纳法可证:若 P ( A 1 A 2 . . . A n ) > 0 P(A_1A_2...A_n)>0 P(A1A2...An)>0,则有
P ( A 1 A 2 . . . A n ) = P ( A n ∣ A 1 A 2 . . . A n − 1 ) P ( A n − 1 ∣ A 1 A 2 . . . A n − 2 ) . . . P ( A 2 ∣ A 1 ) P ( A 1 ) = P ( A 1 ) ∏ i = 2 n P ( A i ∣ A 1 A 2 . . . A i − 1 ) P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1}) P(A1A2...An)=P(AnA1A2...An1)P(An1A1A2...An2)...P(A2A1)P(A1)=P(A<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

spearhead_cai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值