tensorflow.contrib.learn.preprocessing.VocabularyProcessor

最新推荐文章于 2021-01-30 10:52:26 发布

空字符（公众号：月来客栈）

最新推荐文章于 2021-01-30 10:52:26 发布

阅读量5.2k

点赞数 4

分类专栏：数据预处理 Tensorflow框架

本文链接：https://blog.csdn.net/The_lastest/article/details/81771723

版权

本文介绍了TensorFlow.contrib.learn.preprocessing.VocabularyProcessor，该工具用于学习词汇字典并返回单词的索引。通过示例展示了如何利用该函数处理分词文本，创建词典，并将样本转换为固定长度的向量，对于未达到长度的词或未出现在词典中的词用0填充。同时，可以设置词频阈值，仅保留出现次数大于设定值的词汇。

摘要由CSDN通过智能技术生成

今天要记录的是TensorFlow中的一个非常有用的函数，以前都是自己手动现在这一功能，没想到居然有现成的。它就是learn.preprocessing.VocabularyProcessor，其作用，用官方的一句话来说就是 Learn the vocabulary dictionary and return indexies of words.

实现的功能就是，根据所有已分词好的文本建立好一个词典，然后找出每个词在词典中对应的索引，不足长度或者不存在的词补0

例如，现在有如下两个分词后的文档，即两个样本：

[['我 可以 跟 在 你 身后 像 影子 追着 光 梦游'],['我 可以 等 在 这 路口 不管 你 会不会 经过']]

根据这些样本我们可以建立如下的一个词典

dic = [UNK 我 可以 跟 在 你 身后 像 影子 追着 光 梦游 等 这 路口 不管 会不会 经过]

同时，我们可以发现在上面两个样本中࿰

最低0.47元/天解锁文章

空字符（公众号：月来客栈）

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录