统计自然语言处理2----数学基础(一)

前言

  要想从本质上深入理解自然语言处理、机器学习以及深度学习等算法,就需要你有强硬的数学基础,从原理到实践,知根知底。在此,我们只是一个入门级,所以我们暂且掌握以下数学基础,就ok。

概率论基础

概率

  概率论是从随机试验中的事件到实数域的函数,用以表示事件发生的可能性。如果用P(A)作为事件A的概率,是实验的样本空间,则概率函数必须满足如下公理:

公理1:

公理2:

公理3:如果对任意的i和j(i不等于j),事件 不相交 ,则有:

最大似然估计(likehood estimation)

  如果一个试验的样本空间是,在相同情况下重复实验N次,观察到样本的次数为,则的相对频率为:。由于,因此,。当N越来越大时,相对频率就越来越接近sk的概率P(sk)。事实上,。因此,相对频率常被用作概率的估计值,这种概率值的估计方法称为最大似然估计值。

条件概率

  如果A和B是样本空间上的两个事件,P(B)>0,那么在给定B时A的条件概率为P(A|B)为:

这里写图片描述

  条件概率P(A|B)给出了在已知事件B发生的情况下,事件A的概率。一般地,P(A|B)不等于P(A),除非A和B相互独立,P(A|B)=P(A)。

全概率公式

  设为试验E的样本空间,的一组事件,且他们两两互斥,且每次试验中至少发生一个。即:
  这里写图片描述
  则称为样本空间的一个划分。
  设A为的一个划分,且P(Bi)>0(i=1,2,…,n),则全概率公式为:
  这里写图片描述

贝叶斯法则(Bayes’ theorem)

  如果A为样本空间的事件,的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…,n),那么
  这里写图片描述

这里写图片描述

例2-2:假设某一种特殊的句法结构很少出现,平均大
约每100000个句子中才可能出现一次。我们开发了一个程
序来判断某个句子中是否存在这种特殊的句法结构。如果
句子中确实含有该特殊句法结构时,程序判断结果为“存在”
的概率为0.95。如果句子中实际上不存在该句法结构时,程
序错误地判断为“存在”的概率为0.005。那么,这个程序测
得句子含有该特殊句法结构的结论是正确的概率有多大?

这里写图片描述

二项式分布(binomial distribution)

  当重复一个只有两种输出(假定为或A)的试验(伯努利试验), A在一次实验中发生的概率为p,现把
实验独立地重复n次。如果用X表示A在这n次实验中发生的次数,那么,X=0,1,… ,n。
考虑事件{X=i},如果这个事件发生,必须在这n次的原始记录中有i个A,n-i个
这里写图片描述
A可以出现在n个位置中的任何一个位置,所以,结果序列有 种可能。由此,可以得出:
这里写图片描述
X所遵从的概率分布称为二项式分布并记为:X ~ B(n, p)。在自然语言处理中,我们常常以句子为处理单位。一般地,我们假设一个语句独立于它前面的其它语句,句子的概率分布近似地认为符合二项式分布。

贝叶斯决策理论(Bayesian decision theory)

  假设研究的分类问题有c个类别,各类别的状态用wi表示,i = 1, 2, … , c;对应于各个类别wi出现的先验概率为P(wi);在特征空间已经观察到某一向量是d 维特征空间上的某一点,且条件概率密度函数 是已知的。那么,利用贝叶斯公式我们可以得到后验概率
 

这里写图片描述

 基于最小错误率的贝叶斯决策规则为:
  这里写图片描述
  贝叶斯决策理论在词义消歧(word sense disambiguation)、文本分类等问题的研究中具有重要用途。

期望(exception)

  期望值是一个随机变量所取的概率平均。设X为一个随机变量,其分布为若级数绝对收敛,那么,随机变量X的数学期望或者概率平均值为:
  这里写图片描述

方差(variance)

一个随机变量的方差描述的是该随机变量的偏离其期望值的程度。设X为一随机变量,其方差为:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱科研的徐博士

请各位看官赏赐,小仙女笔芯笔芯

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值