机器学习中概率论知识复习

本文回顾了机器学习中概率论的基本概念,包括概率空间、随机变量、概率分布、期望与方差以及重要的分布,如伯努利、泊松和高斯分布。通过实例深入解释了概率论在机器学习中的应用,如链式法则、贝叶斯定理和概率处理技巧。
摘要由CSDN通过智能技术生成

机器学习先验知识概率论部分,发现看Machine Learning(-Andrew Ng)课程的时候中间有推导过程不是很明白,遂针对性复习。

知识内容组织结构,参考:《Probability Theory Review for Machine Learning》(Machine Learning-Andrew Ng,课程讲义复习笔记2)

内容补充,参考维基百科。

公式编辑参考:http://meta.math.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-reference


1 基本概念

概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。

1.1 概率空间

说到概率,通常是指一个具有不确定性的event发生的可能性。例如,下周二下雨的概率。因此,为了正式地讨论概率论,我们首先要明确什么是可能事件。
正规说来,一个probability space是由三元组 (Ω,F,P) 定义:
- Ω 样本空间
- F2Ω ( Ω 的幂集)为(可度量的)事件空间
- P 为将事件 EF 映射到0~1真值区间的概率度量(概率分布),可以将 P 看作概率函数
注: Ω 的幂集 2Ω ——是 Ω 的所有子集的集合,符号: P(Ω):={ U|UΩ} |Ω|=n 个元素, |P(Ω)|=2n 个元素。

假设给定样本空间 Ω ,则对于事件空间 F 来说:
- F 包含 Ω 本身和
- F 对于并集闭合,例如:如果 α,βF ,则 αβF
- F 对于补集闭合,例如:如果 αF ,则 (Ωα)F

Example1: 假如我们投掷一个(6面)骰子,那么可能的样本空间 Ω={ 1,2,3,4,5,6} 。我们可能感兴趣的事件是骰子点数是奇数还是偶数,那么这种情况下事件空间就是 F={ ,{ 1,3,5},{ 2,4,6}} .

可以看到样本空间 Ω 为有限集时,就像上一个例子,我们通常令事件空间 F 2Ω 。这种策略并不完全通用,但是在实际使用中通常是有效的。然而,当样本空间为无限集时,我们需要仔细定义事件空间。
给定一个事件空间 F ,概率函数 P 需要满足几个公理:
- (非负)对于所有 αF,P(α)0
- P(F)=1 ,事件空间的概率值为1
- (互斥事件的加法法则)对于所有 α,βFαβ=,P(αβ)=P(α)+P(β)

Example2: 回到掷骰子的例子,假设事件空间 F 2Ω ,进一步地,定义 F 上的概率函数 P 为:
P({ 1})=P({ 2})==P({ 6})=16
那么这种概率分布 P 可以完整定义任意给出事件的发生概率(通过可加性公理)。例如,投掷点数为偶数的概率为:
P({2,4,6})=P({2})+P({4})+P({6})=16+16+16=12
因为任意事件(此处指样本空间内的投掷出各点数)之间都没有交集

1.2 随机变量

随机变量在概率论中扮演着一个重要角色。最重要的一个事实是,随机变量并不是变量,它们实际上是将(样本空间中的)结果映射到真值的函数。我们通常用一个大写字母来表示随机变量。
Example3: 还是以掷骰子为例。 另 X 为取决于投掷结果的随机变量。 X 的一个自然选择是将 i 映射到值 i ,例如,将事件“投掷1点”映射到值1。我们也可以选择一些特别的映射,例如,我们有一个随机变量 Y ——将所有的结果映射到0,这就是一个很无聊的函数。或者随机变量 Z ——当 i 为奇数时,将结果 i 映射到 2i ;当 i 为偶数时,将结果 i 映射到 i

从某种意义上说,随机变量让我们可以将事件空间的形式概念抽象出来,通过定义随机变量来采集相关事件。举个例子,考虑Example1中投掷点数为奇/偶的事件空间。我们其实可以定义一个随机变量,当结果 i 为奇数时取值为1,否则随机变量取值为0。这种二元算计变量在实际中非常常见,通常以指示变量为人所知,它是因用于指示某一特定事件是否发生而得名。所以为什么我们要引进事件空间?就是因为当一个人在学习概率论(更严格来说)通过计量理论来学习时,样本空间和事件空间的区别非常重要。这个话题对于这个简短的复习来说太前沿了,因此不会涉及。不管怎样,最好记住事件空间并不总是简单的样本空间的幂集。
继续,我们后面主要会讨论关于随机变量的概率。虽然某些概率概念在不使用随机变量的情况下也能准确定义,但是随机变量让我们能提供一种对于概率论的更加统一的处理方式。取值为 a 的随机变量 X 的概率可以记为:

P(X=a)PX(a)

同时,我们将随机变量 X 的取值范围记为: Val(X)

1.3 概率分布,联合分布,边缘分布

我们经常会谈论变量的分布。正式来说,它是指一个随机变量取某一特定值的概率,例如:
Example4:假设在投掷一个骰子的样本空间 Ω 上定义一个随机变量 X ,如果骰子是均匀的,则 X 的分布为:
PX(1)=PX(2)==PX(6)=16
注意,尽管这个例子和Example2类似,但是它们有着不同的语义。Example2中定义的概率分布是对于事件而言,而这个例子中是随机变量的概率分布。
我们用 P(X) 来表示随机变量 X 的概率分布。
有时候,我们会同时讨论大于一个变量的概率分布,这种概率分布称为联合分布,因为此事的概率是由所涉及到的所有变量共同决定的。这个可以用一个例子来阐明。
Example5:在投掷一个骰子的样本空间上定义一个随机变量 X 。定义一个指示变量 Y ,当抛硬币结果为正面朝上时取1,反面朝上时取0。假设骰子和硬币都是均匀的,则 X Y 的联合分布如下:

P X=1 X=2 X=3 X=4 X=</
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值