统计语言模型--整理中

最新推荐文章于 2024-03-08 16:22:55 发布

giant7

最新推荐文章于 2024-03-08 16:22:55 发布

阅读量8.3k

点赞数

本文链接：https://blog.csdn.net/ggxxkkll/article/details/8682273

版权

统计语言模型（SLM）利用概率统计理论研究语言，常见模型包括一元、二元和N元模型。在拼音输入法等应用场景中，通过计算不同语言片段的概率来解决歧义问题。SLM面临数据稀疏性挑战，需要平滑技术处理零概率事件。

摘要由CSDN通过智能技术生成

语言模型（Language Model）是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中，语言模型广泛地用于语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域。
　　语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型是人工编制的语言学文法，文法规则来源于语言学家掌握的语言学知识和领域知识，但这种语言模型不能处理大规模真实文本。为满足这一需求，基于统计的语言模型应运而生。这种语言模型通常是概率模型，计算机借助于统计语言模型的概率参数，可以估计出自然语言中每个句子出现的可能性，而不是简单的判断该句子是否符合文法。常用统计语言模型，包括了N元文法模型（N-gram Model）、隐马尔科夫模型（Hidden Markov Model，简称HMM）、最大熵模型（Maximum Entropy Model）。

1、统计语言模型基本原理
　　一个基于统计的计算语言模型以概率分布的形式描述了任意语句（字符串）s属于某种语言集合的可能性。例如：p(他/认真/学习)=0.02，p(他/认真/读书)=0.03，p(他/认真/坏)=0，等等。这里并不要求语句s在语法上是完备的，该模型需对任意的语句s都给出一个概率值。
　　假定词是一个句子的最小的结构单位，并假设一个语句s由词w1，w2，...，wn组成，那么，不失一般性，p(s)可由公式1计算：