词信息处理基础（概率论、信息论基础）

最新推荐文章于 2023-03-04 16:26:41 发布

杨陈菊

最新推荐文章于 2023-03-04 16:26:41 发布

阅读量996

点赞数 1

分类专栏：中文信息处理文章标签：中文信息处理概率论信息论

本文链接：https://blog.csdn.net/Yangchenju/article/details/88967641

版权

本文介绍了词信息处理的基础，涵盖概率论和信息论的核心概念。讲解了转移概率、条件概率在语言统计中的应用，详细阐述了信息熵、联合熵、条件熵、互信息和交叉熵的定义及性质，并探讨了n元语法模型及其性能评价方法。

摘要由CSDN通过智能技术生成

文章目录

一、概率论基础

语言统计中常常会用到概率论知识，常用到的是概率、转移概率、条件概率。概率的概念这里不再描述。

1.转移概率

转移概率是指从一个状态到另一个状态的概率，实际上是一种特殊的条件概率，即规定了邻接顺序的条件概率。
举例说明：
从“中国”转移到“人民”的概率为 $P(W_2=“人民”|W_1=“中国”)$ ，可估计为“中国人民”的出现次数除以“中国”的出现次数。
类似地，从名词转移到动词的概率是 $P(T_2=动词|T_1=名词)$ ，可估计为名词和动词相邻出现的次数除以名词出现的次数。

2. 条件概率

条件概率不限于先后发生的事件。
举例说明：
$P(W_i=“设计”|T_i=“名词”)$ 表示在在某词为名词的条件下，其词形是“设计”的概率，当事件和作为条件的事件是同时发生的，应该看作是条件概率而不是转移概率。求这个条件概率，可以用语料库中作为名词出现的“设计”的出现次数除以所有名词出现的次数。
而 $P(W_i=名词|T_i=“设计”)$ 表示某词词形为“设计”的条件下，其词性为名词的概率，这是可以用语料库中名词“设计”的出现次数除以以任何词性出现词形为“设计”的次数。
条件可以用下面公式求：
$P (A ∣ B) = N (A B) / N (B)$
即用事件AB发生的次数除以事件B发生的次数
如果已知事件AB、B的概率，可以用：
$P (A ∣ B) = P (A B) / P ($