词信息处理基础(概率论、信息论基础)

本文介绍了词信息处理的基础,涵盖概率论和信息论的核心概念。讲解了转移概率、条件概率在语言统计中的应用,详细阐述了信息熵、联合熵、条件熵、互信息和交叉熵的定义及性质,并探讨了n元语法模型及其性能评价方法。
摘要由CSDN通过智能技术生成

一、概率论基础

语言统计中常常会用到概率论知识,常用到的是概率、转移概率、条件概率。概率的概念这里不再描述。

1.转移概率

转移概率是指从一个状态到另一个状态的概率,实际上是一种特殊的条件概率,即规定了邻接顺序的条件概率。
举例说明:
从“中国”转移到“人民”的概率为 P ( W 2 = “ 人 民 ” ∣ W 1 = “ 中 国 ” ) P(W_2=“人民”|W_1=“中国”) P(W2=W1=),可估计为“中国人民”的出现次数除以“中国”的出现次数。
类似地,从名词转移到动词的概率是 P ( T 2 = 动 词 ∣ T 1 = 名 词 ) P(T_2=动词|T_1=名词) P(T2=T1=),可估计为名词和动词相邻出现的次数除以名词出现的次数。

2. 条件概率

条件概率不限于先后发生的事件。
举例说明:
P ( W i = “ 设 计 ” ∣ T i = “ 名 词 ” ) P(W_i=“设计”|T_i=“名词”) P(Wi=Ti=)表示在在某词为名词的条件下,其词形是“设计”的概率,当事件和作为条件的事件是同时发生的,应该看作是条件概率而不是转移概率。求这个条件概率,可以用语料库中作为名词出现的“设计”的出现次数除以所有名词出现的次数。
P ( W i = 名 词 ∣ T i = “ 设 计 ” ) P(W_i=名词|T_i=“设计”) P(Wi=Ti=)表示某词词形为“设计”的条件下,其词性为名词的概率,这是可以用语料库中名词“设计”的出现次数除以以任何词性出现词形为“设计”的次数。
条件可以用下面公式求:
P ( A ∣ B ) = N ( A B ) / N ( B ) P(A|B)=N(AB)/N(B) P(AB)=N(AB)/N(B)
即用事件AB发生的次数除以事件B发生的次数
如果已知事件AB、B的概率,可以用:
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(AB)=P(AB)/P(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值