VocabularyProcessor 使用注意事项

import codecs
from tensorflow.contrib import learn 
import numpy as np
raw1=[
"A person on a horse jumps over a broken down airplane.",
"A person is outdoors, on a horse."]
raw2=["The boy does a skateboarding trick."]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=10)
#vocab_processor.fit(raw1)   # vocabprocessor是去区分大小写的 
print(np.array(list(vocab_processor.fit_transform(raw2))))  #前面fit一次了 就不要再fit_transform了,没有任何效果了  这一点很奇怪   
#transform_Text=np.array(list(vocab_processor.fit_transform(raw1)))
#transform_text2=np.array(list(vocab_processor.fit_transform(raw2)))
#print(transform_Text)
print(np.array(list(vocab_processor.transform(raw1))))# fit_transform和 fit(raw1)  再 transform(raw1)  的效果是一样的 

#也就是 创建词汇表,创建后不能更改
print(np.array(list(vocab_processor.transform(raw2))))#[0,0,0,4,0,0]
#print(np.array(list(vocab_processor.fit_transform(raw2))))# [13,14,15,4,16,17,0000]
#[[ 1  2  3  4  5  6  7  4  8  9]
 #[ 1  2 11 12  3  4  5  0  0  0]]   

默认的VocabularyProcessor 只适合英文 

raw2=[
    "2017清明节放假安排",
    "2018年清明节休市安排",
    "您好,2017年清明节股市休市安排如下有哪些",
    "清明股市放假吗"    
   "清明节"        ]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=15)
print(np.array(list(vocab_processor.fit_transform(raw2))))
 #[[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[3 4 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[5 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
print(vocab_processor.vocabulary_._mapping)
# {'<UNK>': 0, '2017清明节放假安排': 1, '2018年清明节休市安排': 2, '您好': 3, '2017年清明节股市休市安排如下有哪些': 4, '清明股市放假吗清明节': 5}
所以如果 想要用在中文上面 必须自定义分词器 

https://zhuanlan.zhihu.com/p/43385871 vocabprocessor使用自定义的字典        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值