tensorflow.contrib.learn.preprocessing.VocabularyProcessor

本文介绍了TensorFlow.contrib.learn.preprocessing.VocabularyProcessor,该工具用于学习词汇字典并返回单词的索引。通过示例展示了如何利用该函数处理分词文本,创建词典,并将样本转换为固定长度的向量,对于未达到长度的词或未出现在词典中的词用0填充。同时,可以设置词频阈值,仅保留出现次数大于设定值的词汇。
摘要由CSDN通过智能技术生成

今天要记录的是TensorFlow中的一个非常有用的函数,以前都是自己手动现在这一功能,没想到居然有现成的。它就是learn.preprocessing.VocabularyProcessor,其作用,用官方的一句话来说就是 Learn the vocabulary dictionary and return indexies of words.

实现的功能就是,根据所有已分词好的文本建立好一个词典,然后找出每个词在词典中对应的索引,不足长度或者不存在的词补0

例如,现在有如下两个分词后的文档,即两个样本:

[['我 可以 跟 在 你 身后 像 影子 追着 光 梦游'],['我 可以 等 在 这 路口 不管 你 会不会 经过']]

根据这些样本我们可以建立如下的一个词典

dic = [UNK 我 可以 跟 在 你 身后 像 影子 追着 光 梦游 等 这 路口 不管 会不会 经过]

同时,我们可以发现在上面两个样本中࿰

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值