基于统计的分词技术

本文探讨了基于统计的分词技术,重点介绍了N元文法模型在纠正中文文本错误和提取文本特征方面的应用。文章还提到了Apriori算法、Vertbi搜索算法以及统计方法,如词频统计、互信息熵和t-测试。同时,讨论了词的位置结构特征和完整性特征在分词中的潜在作用。
摘要由CSDN通过智能技术生成

-

 

1. N元文法模型

1.1 N元文法介绍

基于统计的方法理解一句话,就是要从一句话的每个位置全部候选字中选择一个最可能的句子,我们假定一个字只与前面的N-1个字有关,若没有N-1个音就补以空音。这种N-1阶的马尔可夫模型,在语音理解中又特别地被称为N元文法模型(N-gram Model)

 

 

N元统计计算语言模型的思想是:一个单词的出现与其上下文环境中出现的单词序列密切相关,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关。

 

1.2 利用N元文法来纠正中文文本错误

n-gram 是常用的统计语言模型,其中尤以二元文法Bigram)和三元文法Trigram)的应用最多。n-gram 模型统计各种语言的邻接共现规律,反映句子的局部范围是否符合语言规范,被广泛用于自动校对中的错误查找。在英文的自动校对中使用了词和词的Trigram,把以字、词、词性为共现元素的Bigram 应用于了中文自动校对中,取得了较好的效果。

由于局部错误在文本的错误中占多数,所以选择合适的查找局部错误的方法对自动校对来说至关重要。我们知道,对正确的语言现象,字词之间的邻接共现概率较高,对一些不符合语法规范的错误,字词之间的邻接共现概率较低。所以,可应用反映字词之间邻接共现规律的n-gram 模型,对句子进行局部分析,查找文本中的局部错误。

例如:

重要课题

重要

方法1:对训练语料先进行自动分词,然后统计二元词邻接共现的规律,相邻的两个词wiwi+1 记为一个词单元ui,下一单元ui+1= wi+1wi+2,该方法统计句子中词单元的绝对次数Count(ui),将其作为模型的参数;

方法2:使用方法的训练数据,以相邻三个词</

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值