2. 数学基础

本文介绍了概率论基础,包括概率空间、样本空间、概率函数、先验概率和后验概率、条件概率、独立性以及贝叶斯定理。接着讨论了信息论基础,涵盖熵、联合熵、条件熵、互信息和信道容量等概念。这些理论在统计自然语言处理中起着关键作用,如贝叶斯更新、决策理论以及信息量的度量。
摘要由CSDN通过智能技术生成

1. 概率论基础

概率空间:完备的概率空间由样本空间\Omega、概率函数P、事件的\sigma-field这3个部分组成。在统计自然语言处理中,我们的目标就是为建立的模型定义一个符合上述条件的概率空间。

  •  \Omega为一个样本空间或者基本事件空间,它是一个样本点或者基本事件的集合。样本空间\Omega可以是离散的(至多无限可数个样本点),也可以是连续的(不可数个样本点,比如身高取样为连续的值)。对于自然语言处理中的具体问题,主要是离散样本空间,其中包含有限个样本。
  • \sigma-field包含一个最大元素\Omega的集合,并且该集合对于它的元素求补运算和有限并集运算封闭。
  • 概率函数P就是要在整个样本空间\Omega分配概率值,概率值总和为1。一个离散概率函数的形式P:F\rightarrow [0, 1],满足如下两个条件:① P(\Omega )=1;② 可加性:对于不相交的集合A_{j}\in F(例如,A_{j}\bigcap A_{k}=\O ,j\neq k),P(\bigcup_{j=1}^{\infty }A_{j})=\sum_{j=1}^{\infty }P(A_{j})(式2.1)。

先验概率:不考虑已知知识对概率值的影响,原有的概率值就称为事件的先验概率(prior probability)。

后验概率:加入已知的知识后,原有的概率值将发生变化,称为事件的后验概率(posterior probability)。

条件概率:假设事件B的概率已知,那么事件A发生的条件概率为(P(B)> 0):P(A|B)=\frac{P(A\bigcap B)}{P(B)}(式2.2)。

                  当P(B)=0时,有P(A\bigcap B) = P(B)P(A|B)=P(A)P(B|A) (式2.3)【乘法律】

                  将(式2.3)推广到多个事件,P(A_{1}\bigcap...\bigcap A_{n})=P(A_{1})P(A_{2}|A_{1})P(A_{3}|A_{1}\bigcap A_{2})...P(A_{n}|\bigcap_{i=1}^{n-1}A_{i})(式2.4)。

独立性:两个事件AB互相独立当且仅当它们满足P(A\bigcap B) = P(A)P(B),除非P(B)=0

              也相当于P(A)=P(A|B),即事件B不影响事件A发生的概率。否则事件AB为相关的事件。

              另外,当事件A,B,C满足P(A\bigcap B |C) = P(A|C)P(B|C)时,称为

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值