import codecs
from tensorflow.contrib import learn
import numpy as np
raw1=[
"A person on a horse jumps over a broken down airplane.",
"A person is outdoors, on a horse."]
raw2=["The boy does a skateboarding trick."]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=10)
#vocab_processor.fit(raw1) # vocabprocessor是去区分大小写的
print(np.array(list(vocab_processor.fit_transform(raw2)))) #前面fit一次了 就不要再fit_transform了,没有任何效果了 这一点很奇怪
#transform_Text=np.array(list(vocab_processor.fit_transform(raw1)))
#transform_text2=np.array(list(vocab_processor.fit_transform(raw2)))
#print(transform_Text)
print(np.array(list(vocab_processor.transform(raw1))))# fit_transform和 fit(raw1) 再 transform(raw1) 的效果是一样的
#也就是 创建词汇表,创建后不能更改
print(np.array(list(vocab_processor.transform(raw2))))#[0,0,0,4,0,0]
#print(np.array(list(vocab_processor.fit_transform(raw2))))# [13,14,15,4,16,17,0000]
#[[ 1 2 3 4 5 6 7 4 8 9]
#[ 1 2 11 12 3 4 5 0 0 0]]
默认的VocabularyProcessor 只适合英文
raw2=[
"2017清明节放假安排",
"2018年清明节休市安排",
"您好,2017年清明节股市休市安排如下有哪些",
"清明股市放假吗"
"清明节" ]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=15)
print(np.array(list(vocab_processor.fit_transform(raw2))))
#[[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
#[2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
#[3 4 0 0 0 0 0 0 0 0 0 0 0 0 0]
#[5 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
print(vocab_processor.vocabulary_._mapping)
# {'<UNK>': 0, '2017清明节放假安排': 1, '2018年清明节休市安排': 2, '您好': 3, '2017年清明节股市休市安排如下有哪些': 4, '清明股市放假吗清明节': 5}
所以如果 想要用在中文上面 必须自定义分词器
https://zhuanlan.zhihu.com/p/43385871 vocabprocessor使用自定义的字典