Keras深度学习实战（24）——从零开始构建单词向量

盼小辉丶

已于 2024-06-06 15:35:29 修改

阅读量4.6k

点赞数 61

分类专栏： Keras深度学习从入门到项目实战文章标签：深度学习 keras

于 2022-09-11 07:30:00 首次发布

本文链接：https://blog.csdn.net/LOVEmy134611/article/details/125453305

版权

60 篇文章 524 订阅 ¥29.90 ¥99.00

订阅专栏

本文介绍了从零开始使用Keras构建单词向量的方法，详细讲解了Word2Vec原理，以及如何利用神经网络架构在Keras中实现。通过对输入句子的处理，构建输入和输出数据集，训练模型并提取词向量，最后讨论了度量词向量相似度的方法，包括余弦相似度和欧氏距离。

摘要由CSDN通过智能技术生成

在解决文本相关问题时，传统方法通常需要对单词进行独热编码。但是，如果数据集中具有数千个不同的单词，则生成的独热编码矢量将具有数千个维度，这会导致计算代价十分高昂。此外，在这种情况下，相似的单词并不具备相似的向量。因此，我们需要研究如何对文本数据进行编码，以使相似的数据具有相似的编码向量。

Word2Vec 是一种可以将相似单词编码为相似向量的方法。在了解 Word2Vec 原理之前，我们首先考虑以下问题，假设我们有以下输入句子：

I love watching movie
I like watching movie

传统方法中，对单词进行独热编码，输出结果如下所示：

单词	独热编码
I	1	0	0	0	0
love	0	1

了解本专栏

关注

专栏目录