- 博客(2)
- 收藏
- 关注
原创 NLP 怎样把训练数据每一个句子用向量表示
前言 首先我们需要一个词库(vocabulary),包含常见词汇以及<unk>, <BOS>, <EOS>, <PAD> 等等。同时有词库相对应的两个数据:word->index和index->word。拿到数据文本txt之后,按行读取文件,每一行一个句子,我们要做的就是把每一个句子转换成向量表示,句子中的单词用one-hot embedding表示,也就是word->index中的index,同时加上特殊字符<unk>, <
2020-12-03 10:18:23 901
原创 NLP数据预处理
前言 文本的常见格式是txt,我们需要把txt文件中的每一句话中的每一个单词提取出来建立词库。通常,建立三个字典:word->index, index->word, word->frequency. 此外,由于将来处理文本时会遇到不在词库中的单词,所以添加<unk>, <pad>, <EOS>, <BOS>等特殊词。 以下内容以建立一个处理文本的类为例。 from collections import defaultdict UNK_T
2020-12-03 05:22:37 595
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人