N-gram模型的训练以及应用

我一点也不皮

已于 2022-01-23 13:41:28 修改

阅读量4.7k

点赞数 4

分类专栏： NLP golang 文章标签：机器翻译自然语言处理人工智能

于 2019-08-01 12:20:32 首次发布

本文链接：https://blog.csdn.net/i_19970916/article/details/97942445

版权

本文详细介绍了N-gram模型的训练过程和应用，包括语言模型、极大似然估计、马尔科夫假设以及N-gram模型在机器翻译、语音识别等领域的应用。通过实例展示了如何利用极大似然估计训练3-gram模型，并给出了Go语言实现的文字预测应用。

摘要由CSDN通过智能技术生成

语言模型

语言模型在实际应用中可以解决非常多的问题，例如判断一个句子的质量：

the house is big ! good
house big is the ! bad
the house is xxl ! worse

可以用于词的排序，比如the house is small优于small the is house；可以用于词的选择，I am going ___ (home/house)，其中I am going home优于I am going house，除此之外，还有许多其他用途：

语音识别
机器翻译
字符识别
手写字体识别
…

概率语言模型

假设词串 $W=w_{1},w_{2},...,w_{n}$ ，以p(W)表示该词串可能出现的概率，那么从概率的角度上，
$p(W)=p(w_{1},w_{2},...,w_{n})$
要计算p(W)，根据链式法则有：
$p(W)=p(w_{1})p(w_{2}|w_{1})...p(w_{n}|w_{1},w_{2},...,w_{n-1})$
其中 $w_{1},w_{2},...,w_{i-1}$ 为第i个词的历史词。
例句：likely connects audiences with content
$p(likely\,connects\,audiences\,with\,content)\\=p(likely|sentence\,start)\\\times p(connects|likely)\\\times p(audiences|likely,connects)\\\times p(with|likely,connects,audience)\\\times p(content|likely, connects, audience, with)$