基于统计的分词技术

最新推荐文章于 2024-06-18 12:12:06 发布

寂寞灵魂

最新推荐文章于 2024-06-18 12:12:06 发布

阅读量8.7k

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/riverflowrand/article/details/50116903

版权

本文探讨了基于统计的分词技术，重点介绍了N元文法模型在纠正中文文本错误和提取文本特征方面的应用。文章还提到了Apriori算法、Vertbi搜索算法以及统计方法，如词频统计、互信息熵和t-测试。同时，讨论了词的位置结构特征和完整性特征在分词中的潜在作用。

摘要由CSDN通过智能技术生成

1. N元文法模型

1.1 N元文法介绍

基于统计的方法理解一句话，就是要从一句话的每个位置全部候选字中选择一个最可能的句子，我们假定一个字只与前面的N-1个字有关，若没有N-1个音就补以空音。这种N-1阶的马尔可夫模型，在语音理解中又特别地被称为N元文法模型(N-gram Model)。

N元统计计算语言模型的思想是：一个单词的出现与其上下文环境中出现的单词序列密切相关，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关。

1.2 利用N元文法来纠正中文文本错误

n-gram 是常用的统计语言模型，其中尤以二元文法（Bigram）和三元文法（Trigram）的应用最多。n-gram 模型统计各种语言的邻接共现规律，反映句子的局部范围是否符合语言规范，被广泛用于自动校对中的错误查找。在英文的自动校对中使用了词和词的Trigram，把以字、词、词性为共现元素的Bigram 应用于了中文自动校对中，取得了较好的效果。

由于局部错误在文本的错误中占多数，所以选择合适的查找局部错误的方法对自动校对来说至关重要。我们知道，对正确的语言现象，字词之间的邻接共现概率较高，对一些不符合语法规范的错误，字词之间的邻接共现概率较低。所以，可应用反映字词之间邻接共现规律的n-gram 模型，对句子进行局部分析，查找文本中的局部错误。

例如：

重要课题

重要果题

方法1：对训练语料先进行自动分词，然后统计二元词邻接共现的规律，相邻的两个词wiwi+1 记为一个词单元ui，下一单元ui+1= wi+1wi+2，该方法统计句子中词单元的绝对次数Count(ui)，将其作为模型的参数；

方法2：使用方法1 的训练数据，以相邻三个词</

最低0.47元/天解锁文章

寂寞灵魂

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于统计的分词技术

- 1. N元文法模型1.1 N元文法介绍基于统计的方法理解一句话，就是要从一句话的每个位置全部候选字中选择一个最可能的句子，我们假定一个字只与前面的N-1个字有关，若没有N-1个音就补以空音。这种N-1阶的马尔可夫模型，在语音理解中又特别地被称为N元文法模型(N-gram Model)。 N元统计计算语言模型的思想是：一个单词的出现与其上下文环境中出现的单词序列密切
复制链接

扫一扫

专栏目录