前言
首先我们需要一个词库(vocabulary),包含常见词汇以及<unk>
, <BOS>
, <EOS>
, <PAD>
等等。同时有词库相对应的两个数据:word->index和index->word。拿到数据文本txt
之后,按行读取文件,每一行一个句子,我们要做的就是把每一个句子转换成向量表示,句子中的单词用one-hot embedding表示,也就是word->index中的index,同时加上特殊字符<unk>
, <BOS>
, <EOS>
, <PAD>
.
data = []
with open('filepath',"r",</