keras.datasets.imdb数字转换单词问题小坑

在进行NLP的学习过程中,我发现keras自带的imdb数据挺好用的,打印了下train_dataset发现都是数字,在数字到单词转换的时候遇到了问题,转换出来的根本就不是正常句子。

正确写法应该是

indexWord = dict([(value, key) for (key, value) in wordIndex.items()])
trainWords = ’ '.join([indexWord.get(i-3, ‘?’) for i in trainData[0]])

发现正确写法应该是i-3,为什么要-3呢?
找了半天发现0,1,2,3,都被用来做特殊标注了,但用keras自带的wordindex,
1对应的单词还是the,但在它自带的数据集里,the对应的数值是4。。。
可以说是小坑了。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值