循环神经网络

最新推荐文章于 2023-05-07 10:09:44 发布

skyl1ne

最新推荐文章于 2023-05-07 10:09:44 发布

阅读量130

点赞数

本文链接：https://blog.csdn.net/weixin_39178214/article/details/104319420

版权

循环神经网络

文本预处理

文本预处理通常包括四个步骤：

读入文本。
分词：
对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。
建立字典，将每个词映射到一个唯一的索引：
将字符串转换为数字，需要先构建一个字典，将每个词映射到一个唯一的索引编号。
将文本从词的序列转换为索引的序列，方便输入模型：
使用字典，将原文本中的句子从单词序列转换为索引序列。

语言模型

一段自然语言文本可以看作是一个离散时间序列，假设一段长度为 $T$ 的文本中词依次为 $w_1, w_2,\ldots,w_T$ ，那么在离散的时间序列中， $w_t(1\leq t \leq T)$ 可看作在时间步 $t$ 的输出或者标签。语言模型的目标就是评估该序列是否合理，即计算该序列的概率：
$P(w_1, w_2,\ldots,w_T).$

语言模型的计算

假设序列 $w_1, w_2,\ldots,w_T$ 中的每个词是依次生成的，我们有
$P(w_1, w_2,\dots,w_T)=\prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}).$
为了计算语言模型，我们需要计算词的概率，以及一个词在给定前几个词的情况下的条件概率，即语言模型参数。词的概率可以通过该词在训练数据集中的相对词频来计算，例如， $w_1$ 的概率可以计算为：
$\hat{P}(w_1)=\frac{n(w_1)}{n}$
其中 $n(w_1)$ 为语料库中以 $w_1$ 作为第一个词的文本的数量， $n$ 为语料库中文本的总数量。
类似的，给定 $w_1$ 情况下， $w_2$ 的条件概率可以计算为：
$\hat{P}(w_2\mid w_1)=\frac{n(w_1,w_2)}{n(w_1)}$
其中 $n(w_1,w_2) $为语料库中以 $w_1$ 作为第一个词， $w_2$ 作为第二个词的文本的数量。

$n$ 元语法

当序列长度增加时，计算和存储多个词共同出现的概率的复杂度会呈指数级增加。 $n$ 元语法通过马尔可夫假设（虽然并不一定成立）简化了语言模型的计算。这里的马尔可夫假设是指一个词的出现只与前面 $n$ 个词相关，即 $n$ 阶马尔可夫链。如果 $n = 1$ ，那么有 $P (w 3 ∣ w 1, w 2) = P (w 3 ∣ w 2)$ 。如果基于n−1阶马尔可夫链，我们可以将语言模型改写为：
$P(w_1, w_2,\dots,w_T)=\prod_{t=1}^T P(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}).$
这就是 $n$ 元语法，它是基于 n−1 阶马尔可夫链的概率语言模型。显然，当n较小时，n元语法往往并不准确；当n较大时，n元语法需要计算并存储大量的词频和多词相邻频率。
$n$ 元语法存在以下两点缺陷：

参数空间过大；
数据稀疏。

循环神经网络

我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量 $H$ ，用 $H_t$ 表示 $H$ 在时间步 $t$ 的值。 $H_t$ 的计算基于 $X_t$ 和 $H_{t−1}$ ，可以认为 $H_t$ 记录了到当前字符为止的序列信息，利用 $H_t$ 对序列的下一个字符进行预测。
含隐藏状态的循环神经网络

skyl1ne

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络

循环神经网络文本预处理文本预处理通常包括四个步骤：读入文本。分词：对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。建立字典，将每个词映射到一个唯一的索引：将字符串转换为数字，需要先构建一个字典，将每个词映射到一个唯一的索引编号。将文本从词的序列转换为索引的序列，方便输入模型：使用字典，将原文本中的句子从单词序列转换为索引序列。语言模型...
复制链接

扫一扫