tokenizer.texts_to_sequences()

#如果不为不在语料库中的单词创建一个单独的标志,例如"",则可能出现下述情况
当seed_text为"I went to dublin"时,长度为4;当seed_text为"Lawrence went to dublin"时,长度为3,因为Lawrence不再字典中

seed_text = "I went to dublin"
next_words = 2
  
for _ in range(next_words):
	token_list = tokenizer.texts_to_sequences([seed_text])[0]
	print("="*30)
	print(len(token_list))
	#当seed_text为"I went to dublin"时,长度为4;当seed_text为"Lawrence went to dublin"时,长度为3,因为Lawrence不再字典中
	token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
	predicted = model.predict_classes(token_list, verbose=0)
	output_word = ""
	for word, index in tokenizer.word_index.items():
		if index == predicted:
			output_word = word
			break
	seed_text += " " + output_word
print(seed_text)

为避免此种情况,在Tokenizer()初始化时应将""添加

oov_tok = "<UNK>"#添加<UNK>
vocab_size = 100 #词典大小
tokenizer = Tokenizer(num_wods = vocab_size,oov_token = oov_tok)
  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值