预训练语言模型（一）：定义及语言模型

Dream_Poem

已于 2022-01-27 14:51:36 修改

阅读量1.2k

点赞数

文章标签：语言模型深度学习神经网络

于 2022-01-27 11:29:52 首次发布

本文链接：https://blog.csdn.net/Dream_Poem/article/details/122712875

版权

预训练语言模型（一）：定义及语言模型

参考一个很全的总结：
预训练语言模型的前世今生 - 从Word Embedding到BERT

关于语言模型

语言模型的本质是计算一个句子序列的概率。
即对于语言序列 $ω_1,ω_2,…,ω_n$ ，语言模型就是计算 $P(ω_1,ω_2,…,ω_n )$ 。
由此引入乘法公式：
$P(ABCD)=P(A)P(B│A)P(C│AB)P(D│ABC)\tag{1}$
$P(ω_1,ω_2,…,ω_n )=∏_iP(ω_i│ω_1,ω_2,…,ω_{i-1} ) \tag{2}$

统计语言模型

统计语言模型又叫做N-Gram模型，这里N是指词典 $V$ 中的词数。
定义 $V$ 为一个具有 $∣ V ∣$ 个单词的词典，即所有词的词集合； $ω_{next}∈V$ 。
对于公式：
$P(ω_{next}│判断,这个,词,的)=\frac{count(ω_{next},判断,这个,词,的)}{count(判断,这个,词,的) }\tag{3}$
使用马尔科夫链思想：
$P(ω_{next}│判断,这个,词,的)≈P(ω_{next}│词,的)\tag{4}$
假设 $ω_{next}$ 只和它之前的 $k$ 个词有相关性， $k = 1$ 时称作一个单元语言模型， $k = 2$ 时称为二元语言模型。由此可以推出二元语言模型的公式为：
$P(ω_i│ω_{i-1} )=\frac{count(ω_i, ω_{i-1} )}{count(ω_{i-1} )}\tag{5}$
有时会出现数据稀疏的情况，这时我们为了避免0值的出现，使用平滑策略（分子分母都加入一个非0正数）【注：这里还有其它的平滑策略，可以查到】，此时将公式(5)改为：
$P(ω_i│ω_{i-1} )=\frac{count(ω_i, ω_{i-1} )+1}{count(ω_{i-1} )+|V|}\tag{6}$

神经网络语言模型

引入神经网络架构估计单词分布，能够通过词向量衡量单词之间的相似度，对于没有出现过的单词，也可以通过整个句子序列进行词向量的估计，可以有效解决数据稀疏问题。

上图NNLM神经网络共有三层：

输入层：将前面 $n - 1$ 个单词进行one-hot编码，之后乘以一个随机初始化的矩阵Q之后获得词向量 $C(ω_i)$ ，处理后得到输入 $x$ ，此时 $x=(C(ω_1),C(ω_2),…C(ω_{n-1}))$ ；
隐藏层：使用 $\tanh$ 作为激活函数，输出为 $tanh(Hx+b_1)$ ， $H$ 为输入层到隐层的权重矩阵， $b_1$ 为这一层的偏置；
输出层：使用 $s o f t m a x$ 作为激活函数，输出为 $softmax(b_2+Wx+U\tanh(Hx+b_1))$ ，此处的 $W$ 为输入层直接到输出层的权重矩阵， $U$ 为隐层到输出层的参数矩阵。

NNLM最大的贡献在于将神经网络引入了LM中，此外，Word Embedding（参数矩阵 $C$ ）作为NNLM的副产品，在后续研究中也起到了很关键的作用。
另一方面，NNLM的缺点在于，它只能处理定长的序列，本质上还是遵从了马尔科夫假设，相当于用神经网络编码的N-Gram Model，无法解决长期依赖的问题。