文本预处理
读入文本
分词
建立字典,将每个词映射到一个唯一的索引(index)
将文本从词的序列转换为索引的序列
或者用spaCy和NLTK现成的分词工具对文本进行分词
语言模型
时序数据的采样
随机采样:每次从数据里随机采样一个小批量,在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
相邻采样:在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻。
循环神经网络
从零开始实现循环神经网络:
首先将字符表示成向量(如one-hot向量),每个字符对应一个唯一的索引