深入理解词向量-词向量的可视化

最新推荐文章于 2024-08-07 09:14:37 发布

孙宝龙

最新推荐文章于 2024-08-07 09:14:37 发布

阅读量1w

点赞数

分类专栏：自然语言处理机器学习与人工智能文章标签：词向量可视化 word2vector tensorboard

本文链接：https://blog.csdn.net/amao1998/article/details/81742824

版权

本文深入探讨词向量的可视化，利用Tensorboard展示词向量在三维空间的分布。介绍了词向量训练的基础，如CBOW模型，并详细说明了如何读取和处理大规模语料，以及如何利用Tensorboard进行数据可视化。

摘要由CSDN通过智能技术生成

1、概述

词向量是自然语言分词在词空间中的表示，词之间的距离代表了分词之间的相似性，我们可以使用gensim,tensorflow等框架非常方便的来实现词向量。但词向量在词空间的分布到底是什么样的，如何更好的理解词向量是一个非常重要的问题。本文将使用tensorbord以及相关的降维技术在三维空间中模拟词向量在高维空间的分布。

2、训练词向量

词向量的训练是一个无监督的学习过程，这并不是本文讨论的重点。这里只是简单描述一下基本理论。词的表述有两种基本方法：

one-hot表示方法
词向量表示方法

One hot 用来表示词向量非常简单，但是却有很多问题。1、任意两个词之间都是孤立的，根本无法表示出在语义层面上词语词之间的相关信息，而这一点是致命的。2、我们的词汇表一般都非常大，比如达到百万级别，这样每个词都用百万维的向量来表示简直是内存的灾难。能不能把词向量的维度变小呢？

Dristributed representation可以解决One hot representation的问题，它的思路是通过训练，将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间，进而可以用普通的统计学的方法来研究词与词之间的关系。这个较短的词向量维度是多大呢？这个一般需要我们在训练时自己来指定。
词的分布式表示主要可以分为三类：基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示

词向量的训练有两种方法：