文本预处理
一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 我们将解析文本的常见预处理步骤。 这些步骤通常包括:
1.将文本作为字符串加载到内存中。
2.将字符串切分为词元(如单词和字符)。
3.建立一个字典,将拆分的词元映射到数字索引。
4.将文本转换为数字索引序列(独热编码),方便模型操作。
训练样本长度不同
解决:做剪切或填充
词嵌入(word embedding)
将独热向量映射为低维向量
原始向量:v维;映射后:d维,d≪v;映射矩阵:d×v,根据训练数据学习得到
RNN模型
构建序列模型
文本处理中:输入维度不定(可能一直有单词输入);输出维度不定或者是1(直接最终理解结果)
用RNN建模序列数据
若为情感分类等单一输出:
或
皆可
存在问题:随着输入的增加,会产生“遗忘问题”
RNN反向传播
ht既依赖ht-1,又依赖wh,其中ht-1的计算也依赖wh,因此链式法则如下:
使用下面的公式移除上页中的循环计算:
截断时间步:可以在步后截断上页式中的求和计算。
门控循环单元(GRU)
两个机制:
关注机制:更新门
遗忘机制:重置门
基本结构
候选隐藏状态
隐状态
总结
长短期记忆网络(LSTM)
网络结构
遗忘门
值为0:什么都记不住(0通过)
值为1:全记住(全部通过)
输入门
传送带更新值
输出门
状态更新
参数量
是RNN的4倍