【自然语言理解】二、数学基础

1.概率论基础

1.1 概率

概率: 概率是从随机实验中的事件到实数域的函数,用以表示事件发生的可能性。

1.2 最大似然估计

最大似然估计(MLE): 如果一个实验的样本空间是{s1,s2,...,sn},在相同情况下重复实验N次,观察到样本sk(1≤k≤n)的次数为nN(sk),则sk的相对频率为:

qN(Sk)=nN(Sk) / N
lim(N→∞)qN(Sk)=P(Sk)

1.3 条件概率

条件概率: 如果A和B是样本空间Ω上的两个事件,P(B)>0,那么在给定B时A的条件概率P(A|B)为:

P(A|B)=P(A ∩ B) / P(B)

1.4 全概率公式

全概率公式: 全概率就是表示达到某个目的,有多种方式(或者造成某种结果,有多种原因),问达到目的的概率是多少(造成这种结果的概率是多少)?

P(A) = P(U(i=1,n)ABi) = ∑(i=1,n)P(ABi) = ∑(i=1,n)P(Bi)P(A|Bi)

1.5 贝叶斯法则

贝叶斯法则: 贝叶斯公式就是当已知结果,问导致这个结果的第i原因的可能性是多少?执果索因!

P(Bi|A) = P(Bi)P(A|Bi) / ∑(j=1,n)P(Bj)P(A|Bj)

条件概率、全概率公式、贝叶斯法则 理解参考:https://blog.csdn.net/Hearthougan/article/details/75174210

1.6 二项式分布

二项式分布: 扔硬币(重复n次独立的伯努利试验)在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

Pi = C(n,i)pi(1-p)n-i
C(n, i) =n!/(i!(n-i)!)

1.7 期望

数学期望(mean,均值,亦简称期望): 是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

1.8 方差

方差: 在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

2.信息论基础

参考链接:https://www.cnblogs.com/kyrieng/p/8694705.html

2.1 熵

如果X是一个离散型随机变量,其概率分布为:p(x)=P(X=x),x∈X。X的熵H(X)或H(p)为:

通常熵的单位为二进制比特(bit)。

熵又称为自信息(self-information),表示信源X每发一个符号(不论发什么符号)所提供的平均信息量。

描述随机变量不确定性的一个度量,熵越大,其不确定性越大,正确估计其值的可能性就越小。

2.2 联合熵(joint entropy)

如果X,Y是一对离散型随机变量 X,Y~p(x,y),X,Y的联合熵H(X,Y)为:

联合熵实际上就是描述一对随机变量平均所需要的信息量。

2.3 条件熵(conditional entropy)

给定随机变量X的情况下,随机变量Y的条件熵定义为:

2.4 熵率

如果给定一个长度为n的随机变量序列,我们自然会问:该序列的熵随n如何增长?下面定义这个增长率,我们称为熵率。

当如下极限存在时,随机过程{Xi}的熵率定义为:

2.5 相对熵

相对熵可以用来衡量两个概率分布之间的差异。

两个概率分布p(x)和q(x)的相对熵定义为:

D(p||q)=H(p,q)−H(p) (当用非真实分布 q(x) 得到的平均码长比真实分布 p(x) 得到的平均码长多出的比特数就是相对熵)

2.6 交叉熵

交叉熵可以来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

2.7 困惑度

2.8 互信息

表示两个变量X与Y是否有关系,以及关系的强弱。可以把互信息看成由于知道 y 值而造成的 x 的不确定性的减小(反之亦然)(即Y的值透露了多少关于X 的信息量)。

如果(X,Y)~p(x,y),X,Y之间的互信息I(X;Y)定义为:

I(X;Y)=H(X)-H(X|Y)

利用互信息值估计两个汉字结合的强度:

互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大。

当两个汉字x和y关联度较强时,其互信息值I(x,y)>0;x与y关系弱时,I(x,y)≈0;而当I(x,y)<0时,x与y称为“互补分布”。

转载于:https://my.oschina.net/u/4004713/blog/3008468

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值