VocabularyProcessor 使用注意事项

最新推荐文章于 2020-10-24 21:28:00 发布

candy134834

最新推荐文章于 2020-10-24 21:28:00 发布

阅读量1.4k

点赞数

分类专栏： tensorflow

本文链接：https://blog.csdn.net/candy134834/article/details/84314236

版权

tensorflow 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

import codecs
from tensorflow.contrib import learn
import numpy as np
raw1=[
"A person on a horse jumps over a broken down airplane.",
"A person is outdoors, on a horse."]
raw2=["The boy does a skateboarding trick."]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=10)
#vocab_processor.fit(raw1) # vocabprocessor是去区分大小写的
print(np.array(list(vocab_processor.fit_transform(raw2)))) #前面fit一次了就不要再fit_transform了，没有任何效果了这一点很奇怪
#transform_Text=np.array(list(vocab_processor.fit_transform(raw1)))
#transform_text2=np.array(list(vocab_processor.fit_transform(raw2)))
#print(transform_Text)
print(np.array(list(vocab_processor.transform(raw1))))# fit_transform和 fit(raw1) 再 transform(raw1) 的效果是一样的

#也就是创建词汇表，创建后不能更改
print(np.array(list(vocab_processor.transform(raw2))))#[0,0,0,4,0,0]
#print(np.array(list(vocab_processor.fit_transform(raw2))))# [13,14,15,4,16,17,0000]
#[[ 1 2 3 4 5 6 7 4 8 9]
#[ 1 2 11 12 3 4 5 0 0 0]]

默认的VocabularyProcessor 只适合英文

raw2=[
"2017清明节放假安排",
"2018年清明节休市安排",
"您好，2017年清明节股市休市安排如下有哪些",
"清明股市放假吗"
"清明节" ]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=15)
print(np.array(list(vocab_processor.fit_transform(raw2))))
#[[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
#[2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
#[3 4 0 0 0 0 0 0 0 0 0 0 0 0 0]
#[5 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
print(vocab_processor.vocabulary_._mapping)
# {'<UNK>': 0, '2017清明节放假安排': 1, '2018年清明节休市安排': 2, '您好': 3, '2017年清明节股市休市安排如下有哪些': 4, '清明股市放假吗清明节': 5}
所以如果想要用在中文上面必须自定义分词器

https://zhuanlan.zhihu.com/p/43385871 vocabprocessor使用自定义的字典

candy134834

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
VocabularyProcessor 使用注意事项

import codecsfrom tensorflow.contrib import learn import numpy as npraw1=["A person on a horse jumps over a broken down airplane.","A person is outdoors, on a horse."]raw2=["The boy does a skate...
复制链接

扫一扫