自然语言处理（NLP）基础知识——N-gram

最新推荐文章于 2024-10-02 14:00:10 发布

ZreviaX

最新推荐文章于 2024-10-02 14:00:10 发布

阅读量1k

点赞数 18

分类专栏：自然语言处理基础知识文章标签：自然语言处理人工智能机器学习 N-gram

本文链接：https://blog.csdn.net/WindGrin_/article/details/137619164

版权

5 篇文章

订阅专栏

N-Gram Model

N元模型

在一般的序列生成任务中，我们生成序列中的某个词需要依赖于生成前面的所有词的条件下，生成某个词的条件概率，即 $p\left(x_{t} \mid \boldsymbol{x}_{1:(t-1)}\right)$ 。但当序列比较长时，依然很难估计上述条件概率
一个简化的方案就是N-Gram Model，它假设每个词 $x_t$ 只依赖于前面的 $N - 1$ 个词（即 $N$ 阶马尔可夫性质）

$p\left(x_{t} \mid \boldsymbol{x}_{1:(t-1)}\right)=p\left(x_{t} \mid \boldsymbol{x}_{(t-N+1):(t-1)}\right)$
当 $N = 1$ 时，称为一元模型（Unigram）；当 $N = 2$ 时，称为二元模型（Bigram）

一元模型

当 $N = 1$ 时，序列中每个词都和其他词独立，和它的上下文无关
在一元模型中，序列 $\boldsymbol{x}_{1: T}$ 的概率可以写为

$p\left(\boldsymbol{x}_{1: T} ; \theta\right)=\prod_{t=1}^{T} p\left(x_{t}\right)=\prod_{k=1}^{|\mathcal{V}|} \theta_{k}^{m_{k}}$
其中 $m_k$ 为词表中第 $k$ 个词 $v_k$ 在序列中出现的次数
给定一组训练集 $\left\{\boldsymbol{x}_{1: T_{n}}^{(n)}\right\}_{n=1}^{N^{\prime}}$ 其对数似然函数为

$\begin{aligned} \log \prod_{n=1}^{N^{\prime}} p\left(\boldsymbol{x}_{1: T_{n}}^{(n)} ; \theta\right) &=\log \prod_{k=1}^{|v|} \theta_{k}^{m_{k}} \\ &=\sum_{k=1}^{|v|} m_{k} \log \theta_{k} \end{aligned}$
其中 $m_k$ 为第 $k$ 个词在整个训练集中出现的次数
- 上述最大似然估计可转换为约束优化问题
$\begin{array}{ll} \max _{\theta} & \sum_{k=1}^{|v|} m_{k} \log \theta_{k} \\ \text { s.t. } & \sum_{k=1}^{|v|} \theta_{k}=1 \end{array}$
- 通过引入拉格朗日函数可解得
$\theta_{k}=\frac{m_{k}}{\sum_{k^{\prime}=1}^{|\mathcal{V}|} m_{k^{\prime}}}=\frac{m_{k}}{\bar{m}}$
- 因此，在一元模型中，最大似然估计等价于频率估计

二元模型

N元模型

条件概率 $p\left(x_{t} \mid \boldsymbol{x}_{(t-N+1):(t-1)}\right)$ 也能通过最大似然估计得到

$p\left(x_{t} \mid \boldsymbol{x}_{(t-N+1):(t-1)}\right)=\frac{\mathrm{m}\left(\boldsymbol{x}_{(t-N+1): t}\right)}{\mathrm{m}\left(\boldsymbol{x}_{(t-N+1):(t-1)}\right)}$
$\mathrm{m}\left(\boldsymbol{x}_{(t-N+1): t}\right)$ 为 $\boldsymbol{x}_{(t-N+1): t}$ 在数据集中出现的次数

平滑技术

N元模型的一个主要问题是数据稀疏问题。在一元模型中，如果一个词在训练集中不存在，就会导致任何包含该词的句子的概率都为0；在N元模型中，当一个N元组合在训练集中不存在时，包含这个组合的句子的概率也都为0
数据稀疏的解决办法之一是平滑技术（Smoothing），即给一些没有出现的词组合赋予一定的先验概率。例如加法平滑的计算公式为

$p\left(x_{t} \mid \boldsymbol{x}_{(t-N+1):(t-1)}\right)=\frac{\mathrm{m}\left(\boldsymbol{x}_{(t-N+1): t}\right)+\delta}{\mathrm{m}\left(\boldsymbol{x}_{(t-N+1):(t-1)}\right)+\delta|\mathcal{V}|}$
其中 $\delta \in (0,1]$ 为常数。当 $\delta = 1$ 时，称为加1平滑
除了加法平滑，还有Good-Turing平滑、Kneser-Ney平滑等