vocab 被改变
在做NLP相关任务时,发现一个有意思的问题:
在
textlines = [[vocab[char] for char in line] for line in textlines ]
# 功能:将句子中的单词转化为单词ID
# textlines: 输入的句子列表 例:[['我','喜','欢','你'],['你','喜','欢','他']]
# vocab: 词表 例:{'我':0,'喜':1,'欢':2,'你':3,'他':4}
# 转换后为:[[0,1,2,3][3,1,2,4]]
一句中,对vocab的操作只是读取字典中key对应的value,但是在验证集和测试集数据执行完后会发生vocab内容发生变化的问题,暂时还没找到原因,猜测是vocab初始化时,为了预留<unk>
位置,以如下方式进行的初始化:
vocab = defaultdict(lambda: 0)
导致了在vocab遇到没见过的词时,会自动加入到尾部,所以导致词表长度变化,尝试对此进行修改,问题解决了。
但是为什么会这样还要对lambda
函数深入研究,如果大神们有知道的也可以传授一下经验。