Machine Learning——A Probabilistic Approach学习笔记 第二章 概率

本文是《机器学习——A Probabilistic Approach》学习笔记的第二章,介绍了概率论的基本概念,包括概率的贝叶斯解释、离散与连续随机变量、常见概率分布、贝叶斯法则、条件独立、联合概率分布、随机变量的变量替换以及信息论中的熵和KL散度等。通过学习,旨在为后续的机器学习理论打下坚实的概率论基础。
摘要由CSDN通过智能技术生成

第二章 概率(Probability)

2.1引言(Introduction)

  • 在这一章,我们将会讲述关于概率论的更多细节。我们不会太过深入,但是我们至少会简要的了解一下我们在接下来的章节中所要涉及的思想。
  • 让我们先来思考一下:什么是概率?
  • 常见的解释有两种,第一种是frequentist解释。这种观点认为概率代表了一个事件发生的长期概率。例如,它对抛硬币的概率的解释是:如果抛很多次硬币,那么必然有一半左右是正面。另一种是贝叶斯解释,它认为概率是一种量化我们对事物的不确定性的认识。相比之下,它更加侧重信息表示而非重复试验。例如,它对抛硬币的解释则是:我们对硬币落下之后是正面或者反面的概率的期望相同。
  • 贝叶斯解释的一个巨大的优势在于它可以被用来描述那些我们无法多次获取概率的事件。因此,我们在这本书中将会使用贝叶斯解释。好在,在不同的解释中,基本的概率论法则都是相同的,因此不会产生太大的影响。

2.2概率论初窥(a brief review)

这一部分是对于概率论的一个简单的介绍,为读者提供一个过渡。

2.2.1离散随机变量(discrete random variable)

  • p(A):A发生的概率,p\bar{(A)}:A不发生的概率=1-p(A))           A=1:A是真的   A=0:A是假的
  • 我们可以通过定义一个离散随机变量X来延拓二元事件(即结果要么真要么假)的定义。X的取值范围可以是一个有限或可数无限集K。我们定义事件X=x的概率为p(X=x),或者简记为p(x),在这里p称为概率质量函数(probability mass function,简称pmf),其满足0\leq p(x)\leq1,且\sum _{x \in K} p(x)=1

2.2.2基本法则

2.2.2.1两个事件同时发生的概率

  • p(A \vee B)=p(A)+p(B)-p(A \wedge B)

2.2.2.2联合概率(joint probabilities)

  • 联合事件:(乘法原理:product rule)

p(A,B)=P(A \wedge B)=p(A|B)p(B)

  • 边际分布(marginal distribution):(加法原理:sum rule)

p(A)=\sum _{b} p(A,b)=\sum _{b} p(A|B=b)p(B=b)

2.2.2.3条件概率

  • p(A|B)=\frac{p(A,B)}{p(B)},if \ p(B)>0

2.2.3贝叶斯法则

2.2.3.1举例:医学诊断

  • 一个人想要用X光检测自己有没有得乳腺癌。已知乳腺癌的患病率是0.004,如果得了乳腺癌,那么X光检测阳性的几率是0.8;如果没有得,那么假阳性的几率则是0.1,那么,如果检测为阳性,她得乳腺癌的几率是?

2.2.3.2举例:生成式分类器(generative classififier)

  • 对上例的一般化:
  • 这被称为生成式分类器,因为它规定(specify)了如何使用类条件密度(class conditional density)p(\mathbf{x}|y=c)和类先验(class prior)p(y=c)来获取信息。一个代替的方法是直接使用判别分类器求出(fit)类后验(class posterior)p(y=c|\mathbf{x})

2.2.4独立和条件独立(conditional independence)

  • 若有p(X,Y)=p(X)p(Y),我们称X,Y无条件独立,记为X\bot Y;一般地,如果集合里面的元素两两独立,我们也称其共同(mutal)独立
  • 当然,在真实世界中变量太多,往往不能保证独立性,但是其他变量的干扰往往是间接的(mediated)而非直接的,因而我们可以使用条件概率进行描述:如果p(X Y|Z)=p(X|Z)p(Y|Z),则记X\bot Y|Z
  • 定理:如果存在函数g,h,使得对任意的x,y,z,p(z)>0,均有p(x,y|z)=g(x,z)h(y,z),则X\bot Y|Z

2.2.5连续随机变量

  • 如果X是一个连续的随机变量,那么定义函数F(q)=p(X\leq q),称为X的累积分布函数(cumulative distribution function,cdf),显然为一个单调递增函数。再定义,称为概率密度函数(probability density function,pdf),则
  • 取间隔足够小,则
  • 注意:在pdf中,p(x)可能会>1,因为它是F的导数,而只有F<1。而这里的p(x)并不是发生x的概率,因为x根本不是一个事件,发生的概率为0,这里的p(x)是在x附近的事件发生的密度。
  • 笔者补充:事实上,一般的离散随机变量,通过定义定义域外的点处概率为0,可以延拓为连续随机变量。例如,在抛硬币的时候,p(X=0)=p(X=1)=1/2,则定义其余p(X=k)=0,我们得到了其cdf:P(x)=\left\{\begin{matrix} 0 & {\ }x< 0 \\ \frac{1}{2} & 0\leqslant x < 1\\ 1 & x\geqslant 1 \end{matrix}\right.,当然了,因为存在断点,其导函数(pdf)不存在。

2.2.6分位数(quantiles)

  • 由于F单调递增,我们可以定义F的反函数F^{-1}(\alpha ),称为\alphaF的分位数。例如,F^{-1}(0.5 )即为X的分布的中位数‘;而F^{-1}(0.75 )F^{-1}(0.25 )分别称为上下四分位数(quartiles)

2.2.7均值与方差(mean and variance)

  • 一组数据中最为重要的指标就是均值,记为\mu,描述了数据的期望:
  • 方差记为
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值