Top2Vec 是一种用于 主题建模 和 语义搜索 的算法。它自动检测文本中出现的主题,并生成联合嵌入的主题、文档和词向量。
算法基于的假设:许多语义相似的文档都可以由一个潜在的主题表示。首先,创建文档和词向量的联合嵌入。一旦文档和单词被嵌入到向量空间中,算法的目标就是找到密集的文档簇,然后找到是哪些单词将这些文档聚集在一起。每个密集区域即为一个主题,将文档聚拢到密集区域的词就是主题词。
1.联合嵌入
使用 Doc2Vec 或 Universal Sentence Encoder 或 BERT Sentence Transformer 创建文档和词向量的联合嵌入。
文档将被放置在靠近其他类似文档和靠近最有区别的词的地方。