torch代码模板_加载外部词向量

最新推荐文章于 2024-09-14 04:12:25 发布

IMchg

最新推荐文章于 2024-09-14 04:12:25 发布

阅读量597

点赞数 1

分类专栏： python之深度学习

本文链接：https://blog.csdn.net/imchg/article/details/116161755

版权

本文介绍如何在PyTorch中加载预先训练好的词向量文件，包括从文件读取词向量和构建词嵌入层的步骤。

摘要由CSDN通过智能技术生成

代码参考：
github：
2018 EMNLP JMEE：https://github.com/lx865712528/EMNLP2018-JMEE
2019 EMNLEP MOGANED：https://github.com/ll0iecas/MOGANED

一加载词向量文件

# 加载词向量文件，文件里面包含了PAD、NONE的嵌入
def load_embedding(wordemb_path):
    word2idx = {
   }
    wordemb = []
    with open(wordemb_path,'r',encoding='utf-8') as f:
        for line in f:
            splt = line.split()
            assert len(splt)==WORD_DIM+1
            vector = list(map(float, splt[-WORD_DIM:]))
            word = splt[0]
            word2idx[word] = len(word2idx)
            wordemb.append(vector)
    return word2idx, torch.DoubleTensor(wordemb)

# 加载词向量文件，文件里面不包含了PAD、NONE的嵌入
# 返回：word2idx,idx2word,wordemb
# idx2word这个其实没什么用，但是个人觉得方便检查数据，就加上了
def load_embedding(word