统计语言模型

最新推荐文章于 2023-10-05 16:16:05 发布

Oliver_-_

最新推荐文章于 2023-10-05 16:16:05 发布

阅读量386

点赞数

本文链接：https://blog.csdn.net/qq_35732097/article/details/78900101

版权

1. 统计语言模型

句子 $\boldsymbol{W} = w^T_1 = (w_1,w_2,\cdots ,w_T),w_1^T$ 表示句子的第一个词语到第T个词语。
$P (W) = P (w T 1) = P (w 1, w 2, \dots, w T) = P (w 1) \times P (w 2 | w 1) \times P (w 3 | w 21) \times \dots \times P (w T | w T 1)$ $P(\boldsymbol{W}) = P(w^T_1) = P(w_1,w_2,\cdots ,w_T) = P(w_1)\times P(w_2|w_1)\times P(w_3|w_1^2)\times \cdots \times P(w_T|w_1^T)$
句子长度为 T，词典 D 的大小为 N ,存在 $N^T$ 种句子，每个句子需要 T 个参数，共 $T\times N^T$ 个参数（其中有重复的）。
下面讨论两种计算参数的方法：n-gram模型、神经网络。

2. n-gram 模型

n-1 阶的 Markov 假设：一个词出现的概率，仅与前 n-1 个词语有关，即 $P (w k | w k - 1 1) \approx P (w k | w k - 1 k - n + 1)$ $P(w_k|w_1^{k-1}) \approx P(w_k|w_{k-n+1}^{k-1})$
在语料库C足够大时， $P (w k | w k - 1 k - n + 1) \approx c o u n t ( w k k - n + 1 ) c o u n t ( w k - 1 k - n + 1 )$ $P(w_k|w_{k-n+1}^{k-1}) \approx \frac{count(w_{k-n+1}^k)}{count(w_{k-n+1}^{k-1})}$
理论上，n 越大越好，参数越多，模型的可区别性越好；但n较大时，由于语料库的限制，每个参数的实例变少，可靠性降低；一般最大 $n = 3$ 。
平滑技术。
n-gram 主要统计语料中各种词串出现的次数，以及做平滑处理。需要计算某个句子的概率时，找到相关的参数连乘即可。

3. 神经概率语言模型

两种求参方法

目标函数 $L = \prod w \in C P (w | c o n t e x t (w))$ $L = \prod_{w\in C}P(w|context(w))$ 其中，C 为语料库，context(w) 为 w 的上下文。
比如在 n-gram 模型中， $context(w_t) = w_{t-n+1}^{t-1}$ ，即词 w 的前 n-1个词。
方法一：最大对数似然 $L = \sum w \in C l o g P (w | c o n t e x t (w))$ $L = \sum_{w\in C} logP(w|context(w))$ 求得最优参数 $\theta^*$ 。
方法二：把概率视为一个关于 $w和context(w)$ 的函数 $F$ ，即 $P (w | c o n t e x t (w)) = F (w, c o n t e x t (w), θ)$ $P(w|context(w)) = F(w, context(w), \theta)$ 一旦求得最优解 $\theta^*$ 后， $F$ 也被唯一确定，则概率 $P(w|context(w))$ 可以通过函数 $F(w, context(w), \theta^*)$ 来计算。
不需要保存所有的概率值，而是通过 $F()$ 直接计算。
通过选取合适的模型，可使得 $F()$ 的参数个数远小于 n-gram 模型中参数的个数。

神经网络构造 $F(\cdot)$

词向量：对于词典 $D$ 中的任意一个词 $w，|D| = N，\boldsymbol{v}(w)\in \mathbb{R}^m，m$ 为词向量长度。
训练样本： $(context(w),w)，其中\ context(w)=w_{t-n+1}^{t-1}$ 。
输入层： $n-1$ 个结点，每个结点为一个词向量
$v (w i) \in R m ， i = 1, \dots, n - 1$ $v(w_i)\in \mathbb{R}^m，i=1,\cdots ,n-1$ 在通常的监督学习中，输入是已知的；但在这个模型中，输入的词向量未知，需要随机初始化，并通过训练得到。
投影层： $(n-1)\times m$ 个结点，
$x w \in R (n - 1) \times m$ $\boldsymbol{x_w}\in \mathbb{R}^{(n-1)\times m}$ 把 $v(w_{t-1}),v(w_{t-2}),\cdots ,v(w_{t-n+1})$ 首尾相接。
隐藏层：
$z w = t a n h (W x w + p) ， z w \in R n h ， W \in R n h \times (n - 1) m ， p \in R n h$ $\boldsymbol{z_w} = tanh(W\boldsymbol{x_w}+p)，\boldsymbol{z_w}\in \mathbb{R}^{n_h}，\boldsymbol{W}\in \mathbb{R}^{n_h\times (n-1)m}， \boldsymbol{p}\in \mathbb{R}^{n_h}$ 其中， ${n_h}$ 为超参数。
输出层：
$y w = U z w + q ， y w \in R N ， U \in R N \times n h ， q \in R N$ $\boldsymbol{y_w}=U\boldsymbol{z_w}+q，\boldsymbol{y_w}\in \mathbb{R}^N，\boldsymbol{U}\in \mathbb{R}^{N\times n_h}， \boldsymbol{q}\in \mathbb{R}^{N}$ 其中， $\boldsymbol{y_w}=(y_{w,1},y_{w,2},\cdots ,y_{w,N})^T$ 。
$Softmax$ 层： $\boldsymbol{y_w}$ 不能表示概率，想要 $\boldsymbol{y_w}$ 的第 $i$ 个分量 $y_{m,i}$ 表示上下文为 $context(w)$ 时下一个词是词典 $D$ 中第 $i$ 个词的概率，需要把 $N$ 个输出通过 $Softmax$ 归一化，即 $P (w | c o n t e x t (w)) = e y w , i w \sum N i = 1 e y w , i$ $P(w|context(w)) = \frac{e^{y_{w,i_w}}}{\sum_{i=1}^N e^{y_{w,i}}}$ 其中， $i_w$ 表示词 $w$ 在词典 $D$ 中的索引。
优势1：神经概率语言模型假定词义相近的词的词向量也相似（欧氏距离小或者内积大），词向量中的小变化对概率的影响也是小的。
优势2：不需要做平滑处理， $Sotfmax$ 保证了概率值不会为0或1。
词向量有两种表示方法：one-hot representation（维数灾难，没有考虑词与词的相关性）；distributed representation（低维表示，引入距离表示词之间的相似性）。

Oliver_-_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计语言模型

1. 统计语言模型句子 W=wT1=(w1,w2,⋯,wT),wT1\boldsymbol{W} = w^T_1 = (w_1,w_2,\cdots ,w_T),w_1^T表示句子的第一个词语到第T个词语。P(W)=P(wT1)=P(w1,w2,⋯,wT)=P(w1)×P(w2|w1)×P(w3|w21)×⋯×P(wT|wT1)P(\boldsymbol{W}) = P(w^T_1) =
复制链接

扫一扫