预备数学知识自然语言处理

最新推荐文章于 2020-11-10 00:09:02 发布

Jaichg

最新推荐文章于 2020-11-10 00:09:02 发布

阅读量299

点赞数

分类专栏：自然语言处理文章标签：概率论基础信息论基础自然语言处理

本文链接：https://blog.csdn.net/Jiaach/article/details/79534597

版权

自然语言处理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

概率论

最大似然估计

如果 ${s_1,s_2,...,s_n}$ 是一个试验的样本空间，在相同情况下重复N次试验，观察到样本 $s_k$ 的次数为 $n_N(s_k)$ ，那么 $s_k$ 在这N次试验中相对频率为 $q_N(s_k)=\frac{n_N(s_k)}{N}$ 。当N越来越大时，满足 $\lim\limits_{N\to\infty}q_N(s_k)=P(s_k)$

条件概率

$P(A|B)=\frac{P(A\cap B)}{P(B)}$

贝叶斯法则

$P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^n P(A|B_j)P(B_j)}$

$\mathop{\arg\max}_{B} \frac{P(A|B)P(B)}{P(A)} = \mathop{\arg\max}_{B}P(A|B)P(B)$

二项式分布

$p_i = C_n^I\cdot p^I(1-p)^{n-i}$

联合概率分布和条件概率分布

$P(X_1=a_i|X_2=b_j)=\frac{P(X_1=a_i , X_2=b_j)}{P(X_2=b_j)}$

信息论

熵

熵又称为自信息，描述一个随机变量的不确定性的数量。
$H(X)=-\sum\limits_{x\in R}p(x)\log p(x)$

联合熵和条件熵

如果X,Y时一对离散型随机变量。X，Y的联合熵H(X,Y)的定义为
$H(X,Y)=-\sum\limits_{x\in X}\sum\limits_{y\in Y}p(x,y)\log p(x,y)$
$H(Y|X)=-\sum\limits_{x\in X}\sum\limits_{y\in Y}p(x,y)\log p(y|x)$
$H(X,Y)=H(X)+H(Y|X)$
推广到一般情况
$H(X_1,X_2,\cdots.X_n)=H(X_1)+H(X_2|X_1)+\cdots+H(X_n|X_1,\cdots,X_{n-1})$

互信息

X和Y的互信息，记作I(X;Y)。 $I(X;Y)=H(X)-H(X|Y)$ 。反映知道了Y的值以后X的不确定性的减少量，换一句话说，理解Y的值透露了多少关于X的信息量。
$I(X;Y)=\sum\limits_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}$

相对熵

相对熵也称KL距离，描述相同事件空间里两个概念分布相对差距的测度。
$D(p||q)=\sum_{x\in X}p(x)\log \frac{p(x)}{q(x)}$
$D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))$
$D(p(y|x)||q(y|x))=\sum_x p(x)\sum_y p(y|x) \log\frac{p(y|x)}{q(y|x)}$

交叉熵

交叉熵时用来衡量估计模型与真实概率分布之间差异情况的。
$H(X,q)=H(X)+D(p||q)=-\sum\limits_x p(x)\log q(x)$
一般地，N足够大时，近似采用以下计算
$H(L,q)=-\frac{1}{N}\log q(x_1^N)$ 。其中的q(x)是模型q对x概率的估计值。

困惑度

语言模型设计的任务就是要寻找困惑度最小的模型，使其最接近真实语言的情况。
$PP_q=2^{H(L,q)}=[q(l_1^n)]^{-\frac{1}{n}}$

Reference
《统计自然语言处理（第二版）》

Jaichg

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
预备数学知识自然语言处理

概率论最大似然估计如果s1,s2,...,sns1,s2,...,sn{s_1,s_2,...,s_n}是一个试验的样本空间，在相同情况下重复N次试验，观察到样本sksks_k的次数为nN(sk)nN(sk)n_N(s_k)，那么sksks_k在这N次试验中相对频率为qN(sk)=nN(sk)NqN(sk)=nN(sk)Nq_N(s_k)=\frac{n_N(s_k)}{N}。当N越来...
复制链接

扫一扫