今天要记录的是TensorFlow
中的一个非常有用的函数,以前都是自己手动现在这一功能,没想到居然有现成的。它就是learn.preprocessing.VocabularyProcessor
,其作用,用官方的一句话来说就是 Learn the vocabulary dictionary and return indexies of words.
实现的功能就是,根据所有已分词好的文本建立好一个词典,然后找出每个词在词典中对应的索引,不足长度或者不存在的词补0
例如,现在有如下两个分词后的文档,即两个样本:
[['我 可以 跟 在 你 身后 像 影子 追着 光 梦游'],['我 可以 等 在 这 路口 不管 你 会不会 经过']]
根据这些样本我们可以建立如下的一个词典
dic = [UNK 我 可以 跟 在 你 身后 像 影子 追着 光 梦游 等 这 路口 不管 会不会 经过]
同时,我们可以发现在上面两个样本中