python 字典被离奇改变

最新推荐文章于 2022-09-06 10:27:53 发布

球球不秃头

最新推荐文章于 2022-09-06 10:27:53 发布

阅读量233

点赞数 1

分类专栏： NLP 文章标签： python 字典 dict nlp 深度学习

本文链接：https://blog.csdn.net/weixin_42628991/article/details/115267813

版权

NLP 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

vocab 被改变

在做NLP相关任务时，发现一个有意思的问题：
在

textlines = [[vocab[char] for char in line] for line in textlines ]
# 功能：将句子中的单词转化为单词ID
# textlines: 输入的句子列表 例：[['我'，'喜'，'欢'，'你'],['你','喜','欢','他']]
# vocab: 词表 例：{'我':0,'喜':1,'欢':2,'你':3,'他':4}
# 转换后为：[[0,1,2,3][3,1,2,4]]

一句中，对vocab的操作只是读取字典中key对应的value，但是在验证集和测试集数据执行完后会发生vocab内容发生变化的问题，暂时还没找到原因，猜测是vocab初始化时，为了预留<unk>位置，以如下方式进行的初始化：

vocab = defaultdict(lambda: 0)

导致了在vocab遇到没见过的词时，会自动加入到尾部，所以导致词表长度变化，尝试对此进行修改，问题解决了。

但是为什么会这样还要对lambda函数深入研究，如果大神们有知道的也可以传授一下经验。

球球不秃头

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 字典被离奇改变

vocab 被改变在做NLP相关任务时，发现一个有意思的问题：在textlines = [[vocab[char] for char in line] for line in textlines ]# 功能：将句子中的单词转化为单词ID# textlines: 输入的句子列表例：[['我'，'喜'，'欢'，'你'],['你','喜','欢','他']]# vocab: 词表例：{'我':0,'喜':1,'欢':2,'你':3,'他':4}# 转换后为：[[0,1,2,3][3,1,2,4]
复制链接

扫一扫