python 字典被离奇改变

vocab 被改变

在做NLP相关任务时,发现一个有意思的问题:

textlines = [[vocab[char] for char in line] for line in textlines ]
# 功能:将句子中的单词转化为单词ID
# textlines: 输入的句子列表 例:[['我','喜','欢','你'],['你','喜','欢','他']]
# vocab: 词表 例:{'我':0,'喜':1,'欢':2,'你':3,'他':4}
# 转换后为:[[0,1,2,3][3,1,2,4]]

一句中,对vocab的操作只是读取字典中key对应的value,但是在验证集和测试集数据执行完后会发生vocab内容发生变化的问题,暂时还没找到原因,猜测是vocab初始化时,为了预留<unk>位置,以如下方式进行的初始化:

vocab = defaultdict(lambda: 0)

导致了在vocab遇到没见过的词时,会自动加入到尾部,所以导致词表长度变化,尝试对此进行修改,问题解决了。

但是为什么会这样还要对lambda函数深入研究,如果大神们有知道的也可以传授一下经验。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值