在Keras的Embedding层中使用预训练的word2vec词向量_预训练好的word2vec向量表-CSDN博客

本文链接：https://blog.csdn.net/u012052268/article/details/90238282

本文介绍了如何将预训练的word2vec词向量应用于Keras的Embedding层，详细阐述了词向量的概念，获取方式，以及在Keras中转化词向量为所需格式的过程，包括构造词向量字典和大矩阵，填充字典和矩阵，以及如何在模型中使用预训练词向量。此外，还讨论了直接在Keras中训练词向量的效果，表明预训练词向量对模型性能的提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文的部分工作、代码、数据共享到gethub网站《使用多层级注意力机制和keras实现问题分类》： https://github.com/xqtbox/question-classification-with-multi-level-attention-mechanism-and-keras

1 准备工作

1.1 什么是词向量?

”词向量”（词嵌入）是将一类将词的语义映射到向量空间中去的自然语言处理技术。即将一个词用特定的向量来表示，向量之间的距离（例如，任意两个向量之间的L2范式距离或更常用的余弦距离）一定程度上表征了的词之间的语义关系。由这些向量形成的几何空间被称为一个嵌入空间。

传统的独热表示（ one-hot representation）仅仅将词符号化，不包含任何语义信息。必须考虑将语义融入到词表示中。

解决办法将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间进行分布式表示。

这也是词向量又名词嵌入的缘由了。

例如，“椰子”和“北极熊”是语义上完全不同的词，所以它们的词向量在一个合理的嵌入空间的距离将会非常遥远。但“厨房”和“晚餐”是相关的话，所以它们的词向量之间的距离会相对小。

理想的情况下，在一个良好的嵌入空间里，从“厨房”向量到“晚餐”向量的“路径”向量会精确地捕捉这两个概念之间的语义关系。在这种情况下，“路径”向量表示的是“发生的地点”，所以你会期望“厨房”向量 - “晚餐"向量（两个词向量的差异）捕捉到“发生的地点”这样的语义关系。基本上，我们应该有向量等式：晚餐 + 发生的地点 = 厨房（至少接近）。如果真的是这样的话，那么我们可以使用这样的关系向量来回答某些问题。例如，应用这种语义关系到一个新的向量，比如“工作”，我们应该得到一个有意义的等式，工作+ 发生的地点 = 办公室，来回答“工作发生在哪里？”。

词向量通过降维技术表征文本数据集中的词的共现信息。方法包括神经网络(“Word2vec”技术)，或矩阵分解。

1.2 获取词向量

词向量对与中文自然语言处理任务是基石，一般情况下有两种获取方式：

别人训练好的百科数据。优势：包含词语多，符合日常用语的语义；劣势：专有名词不足，占用空间大；
自己训练。优势：专有名词，针对具体任务语义更准确；劣势：泛化性差。

步骤：

graph LR
文本-->分词
分词-->训练词向量
训练词向量-->保存词向量

具体代码：

import gensim

## 训练自己的词向量，并保存。
def trainWord2Vec(filePath):
    sentences =  gensim.models.word2vec.LineSentence(filePath) # 读取分词后的 文本
    model = gensim.models.Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 训练模型

    model.save('./CarComment_vord2vec_100')


def testMyWord2Vec():
    # 读取自己的词向量，并简单测试一下 效果。
    inp = './CarComment_vord2vec_100'  # 读取词向量
    model = gensim.models.Word2Vec.load(inp)

    print('空间的词向量（100维）:',model['空间'])
    print('打印与空间最相近的5个词语：',model.most_similar('空间', topn=5))


if __name__ == '__main__':
    #trainWord2Vec('./CarCommentAll_cut.csv')
    testMyWord2Vec()
    pass

这样我们就拥有了预训练的词向量文件CarComment_vord2vec_100 。

下一单元继续讲解如何在keras中使用它。

2 转化词向量为keras所需格式

上一步拿到了所有词语的词向量，但还需转化词向量为keras所需格式。众所周知，keras中使用预训练的词向量的层是Embedding层，而Embedding层中所需要的格式为一个巨大的“矩阵”：第i列表示词索引为i的词的词向量

所以，本单元的总体思路就是给 Embedding 层提供一个 [ word : word_vector] 的词典来初始化Embedding层中所需要的大矩阵，并且标记为不可训练。

2.1 获取所有词语word和词向量

首先要导入预训练的词向量。

## 1 导入 预训练的词向量
myPath = './CarComment_vord2vec_100' # 本地词向量的地址
Word2VecModel = gensim.models.Word2Vec.load(myPath) # 读取词向量

vector = Word2VecModel.wv['空间']  # 词语的向量，是numpy格式