pytorch从glove词向量源文件中生成embedding并载入

最新推荐文章于 2024-09-12 10:43:48 发布

机器玄学实践者

最新推荐文章于 2024-09-12 10:43:48 发布

阅读量5.6k

点赞数 5

分类专栏： NLP 文章标签： nlp 词向量 glove pytorch 中文预训练

本文链接：https://blog.csdn.net/weixin_39673686/article/details/103150039

版权

本文介绍了如何在PyTorch中从GloVe的txt源文件加载词向量，根据自定义词典构建id2word映射，并创建对应的embedding矩阵。最终，将embedding作为网络的预训练层进行加载。

摘要由CSDN通过智能技术生成

首先是下载glove文件

格式为txt，每一行开头是单词，后面是100个float类型数，空格隔开，因此我们载入这个文件，并取出每一行

def get_numpy_word_embed(word2ix):
    row = 0
    file = 'zhs_wiki_glove.vectors.100d.txt'
    path = '/home/socialbird/platform/aion-autonlp/Downloads'
    whole = os.path.join(path, file)
    words_embed = {}
    with open(whole, mode='r')as f:
        lines = f.readlines()
        for line in lines:
            # print(line)
            # print(len(line.split()))
            line_list = line.split()
            word = line_list[0]
            embed = line_list[1:]
            embed = [float(num) for num in embed]
            words_embed[word] = embed
            if row > 20000:
                break
            row += 1
    # word2ix = {}
    ix2word = {ix: w for w, ix in word2ix.items()}
    id2emb = {}
    for ix in range(l