enkey java_en_vectors_web_lg和Glove向量（spaCy）之间的差异

最新推荐文章于 2023-09-15 11:55:34 发布

飞翔的袋鼠弟

最新推荐文章于 2023-09-15 11:55:34 发布

阅读量472

点赞数

文章标签： enkey java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42451850/article/details/112048054

版权

本文探讨了spaCy加载的'en_vectors_web_lg'模型与GloVe预训练词向量之间的差异。通过比较两个模型的词汇表，发现它们之间存在大约1.1百万个不共享的词汇。同时，注意到'nlp.vocab.strings'和'nlp.vocab.vectors'之间也存在不匹配。通过进一步的分析，展示了如何找出仅存在于GloVe但不在spaCy向量中的词汇。

摘要由CSDN通过智能技术生成

您可以通过查看spaCy .vocab 属性/对象并将其与GloVe文件中的单词进行比较来自行检查spaCy和GloVe模型的词汇表 . 首先将数据加载到两个列表中：

import spacy

nlp = spacy.load('en_vectors_web_lg')

spacy_words = [word for word in nlp.vocab.strings]

glove_filename = 'glove.840B.300d.txt'

glove_words = [line.split()[0].decode('utf-8') for line in open(glove_filename)]

然后检查设定差异以获得“缺失”字样：

>>> list(set(glove_words) - set(spacy_words))[:10]

[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia',

u'.90.99', u'USAMol', u'USAMon', u'Connerty', u'RealLife',

u'NaughtyAllie']

>>> list(set(spacy_words) - set(glove_words))[:10]

[u'ftdna', u'verplank', u'NICARIO', u'Plastic-Treated', u'ZAI-TECH',

u'Lower-Sulfur', u'desmonds', u'KUDNER', u'berlinghoff', u'50-ACRE']

有超过2.2 mio - 1.1 mio~1.1 mio字缺失：

>>> len(set(glove_words) - set(spacy_words))

1528158

请注意 nlp.vocab.strings 和 nlp.vocab.vectors 之间存在差异 . 您可以使用向量对象加载单词

vector_words = []

for key, vector in nlp.vocab.vectors.items():

try:

vector_words.append(nlp.vocab.strings[key])

except KeyError:

pass

(关于try / except：我不清楚为什么 vocab.strings 中缺少某些键)

通过此列表，您将获得：

>>> list(set(glove_words) - set(vector_words))[:10]

[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia', u'.90.99',

u'USAMol', u'USAMon', u'Connerty', u'RealLife', u'NaughtyAllie']

飞翔的袋鼠弟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
enkey java_en_vectors_web_lg和Glove向量（spaCy）之间的差异

您可以通过查看spaCy .vocab 属性/对象并将其与GloVe文件中的单词进行比较来自行检查spaCy和GloVe模型的词汇表 . 首先将数据加载到两个列表中：import spacynlp = spacy.load('en_vectors_web_lg')spacy_words = [word for word in nlp.vocab.strings]glove_filename = ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。