Keras深度学习实战(26)——文档向量详解
0. 前言
在《从零开始构建单词向量》一节中,我们学习了单词向量的基本概念,并且学习了如何生成单词向量,以使语义相似的单词具有相似的单词向量。但是,我们知道许多单词在不同的上下文语境中会有不同的含义,而仅仅使用单词向量并不能体现这种差异,为了解决这一问题,提出了文档向量的概念,用于捕获单词上下文语境信息。
1. 文档向量基本概念
要了解文档向量,我们考虑以下场景。例如,bank 一词在金融(表示银行)和水利(表示河岸)相关主题中均有使用。这时,我们如何确定给定句子或文档中的 bank 究竟是与水利相关还是与金融相关?这就是文档向量所需要解决的问题,文档向量的工作方式与单词向量生成类似,但是增加了段落 ID 的独热编码,如下所示:

在上述情况下,段落 ID 包含了仅使用单词无
本文深入介绍了文档向量的概念,探讨了如何使用 Keras 构建神经网络模型来生成文档向量,以捕捉单词上下文信息。通过预处理文本,构建带标签的文档字典,并训练 Skip-Gram 模型,最终得到航空公司 Tweepy 数据集的文档向量,用于识别文档主题。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



