持续更新
1、载入已经训练好的词向量
逻辑
- 已经训练好的词向量:word2vec glove等等
1、从中生成一个word2id的字典,将每个单词/字映射到下标,得到字典word_to_idx, idx_to_word
2、假设data中有n个单词/字,词向量维度为m,得到该数据集的词向量矩阵n*m
3、词向量矩阵n*m word_to_idx, idx_to_word 根据这三个得到model的input,假设数据中有N个句子,得到的input N*max_sequence_len*m - 自己训练的词向量,保存的时候,矩阵下标和word_to_idx一一对应,直接进行第三步
- tensorflow中有加快查找的函数embedding_lookup,torch中暂时没找到类似函数。后续再看看有没有更快的实现方式。