计算语言学之语言模型

本文介绍了计算语言学中的语言模型,包括n元语法(一元、二元、三元文法)及其在自然语言处理中的应用。此外,详细探讨了数据平滑的各种方法,如加法平滑、古德-图灵估计法、Katz平滑、Jelinek-Mercer平滑、绝对减值法和Kneser-Ney平滑。最后,讨论了语言模型的自适应技术,如基于缓存、混合和最大熵的语言模型。
摘要由CSDN通过智能技术生成

0. 写在前面

这一章我们介绍语言模型。不过要说的是,这里的语言模型基本上是基于字词的,但是其思想也是要掌握的,如果以后到句子、段落、篇章的时候,这些思想都是十分有用的。

1. 语言模型

语言模型(LM)在自然语言处理中占有重要地位,而且像n元语法模型是一个简单但是比较有效的模型。只能说比较有效,但是想要提高到非常高的地步,还需要继续改进才行。

1.1 n元语法

我们正常人的思维,肯定是这样想的,一句话的每个单词,都会与之前所有出现的词相关,甚至是与后面出现的词也相关(双向RNN)。

而一个语言模型通常构建为字符串s的概率分布p(s),这里p(s)试图反应的是字符串s作为一个句子出现的频率。对于一个由l个基元(基元就是基本单元,这里一般指字、词、短语,没有再大的了)构成的句子

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI让世界更懂你

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值