语言模型及其在中文分词中的应用

笑嘻嘻_2019

已于 2023-03-14 16:21:49 修改

阅读量511

点赞数

分类专栏： NLP 文章标签：中文分词语言模型人工智能

于 2023-03-14 09:59:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HolleWord2018/article/details/129503970

版权

本文介绍了语言模型在自然语言处理中的重要性，重点讲解了n元语法模型，包括一元、二元和三元模型，并探讨了参数估计与数据平滑方法，如加1平滑和Good-Turing平滑。最后，阐述了n-gram模型如何应用于中文分词。

摘要由CSDN通过智能技术生成

语言模型及其在中文分词中的应用

语言模型（LM）

基于统计的分词方法的基本思想是中文语句中相连的字出现的次数越多，那么作为词来使用的次数就越多，语句拆分的可靠性就越高，分词的准确率就越高。其基本原理是统计词出现的次数，出现次数足够高的词作为单独的词被保留。基于统计的分词方法能够较好地处理未登录词和歧义词问题，不需要人为地搭建和维护词典，但它过于依赖语料库，语料库地准确度不一定高，且计算量较大，分词速度一般。

常见的基于统计的分词方法包括 $n$ 元语法模型（n-gram）和隐马尔科夫模型（HMM)

语言模型（LM）

语言模型（LM）是描述自然语言内在规律的数学模型。简言之，就是计算一个句子在文本中出现概率的模型，概率越大说明这个句子的准确性就越高。语言模型通常基于一个语料库构建，被广泛应用于各种NLP问题中，如语音识别、机器翻译、分词、词性标注等。

设 $s$ 为一连串按特定顺序排列的词序列（也就是一个句子）， $\omega_i$ 表示词序列（句子）中的第 $i$ 个词，则 $s=\omega_1,\omega_2,...,\omega_l$ 。

语言模型可表示为：

$P(s)=P(\omega_1,\omega_2,...,\omega_l)$
$=P(\omega_1)P(\omega_2|\omega_1)...P(\omega_l|\omega_1,\omega_2,...,\omega_{l-1})$

$n$ 元语法模型（n-gram）

在上面介绍的语言模型中存在一个问题，即当词序列的长度增加时，其计算难度也将逐渐加大。为了解决这一问题，我们引入马尔科夫假设。

马尔科夫假设： 对 $\omega_1,\omega_2,...,\omega_l$ 这一连串特定顺序排列的词序列， $\omega_i$ 出现的概率只与前面 $N - 1$ 个词 $\omega_{i-N+1},...,\omega_{i-2},\omega_{i-1}$ 相关。

当 $N = n$ 时，整个词序列 $\omega_1,\omega_2,...,\omega_l$ 将被切分成一个个由 $n$ 个词组成的片段，该语言模型被称为n元语法模型（n-gram模型）。

一元语法模型

当 $N = 1$ 时，该语言模型称为一元语法模型（unigram模型），此时每个词出现的概率都与前面的词无关，即相互独立：

$P(\omega_i|\omega_1,\omega_2,...,\omega_{i-1})=P(\omega_i)$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。