word2vec (一) 简介与训练过程概要

最新推荐文章于 2024-05-12 16:44:50 发布

thriving_fcl

最新推荐文章于 2024-05-12 16:44:50 发布

阅读量1.5w

点赞数 6

分类专栏：机器学习自然语言处理文章标签：算法

本文链接：https://blog.csdn.net/thriving_fcl/article/details/51404655

版权

因为在组里分享会要讲word2vec，重新整理了之前凌乱的笔记，结果发现有不少新的收获，真是所谓的温故而知新！

词的向量化与word2vec简介

word2vec最初是Tomas Mikolov发表的一篇文章[1]，同时开源了相应的代码，作用是将所有词语投影到 $K$ 维的向量空间，每个词语都可以用一个 $K$ 维向量表示。

为什么要将词用向量来表示呢？这样可以给词语一个数学上的表示，使之可以适用于某些算法或数学模型。通常将词语表示成向量有如下两种方法。

一、one-hot 表示法

假如语料库里一共有 $N$ 个词，one-hot表示即是为每个词分配一个唯一的索引，并且将每个词表示为 $N$ 维的向量，在该词索引对应的维度值为1，其余维度均为0。如一共有三个词：今天、天气、真好，那么三个词的词向量分别可以是 $[1,0,0],[0,1,0],[0,0,1]$ 。这种简单的表示方法已经可以解决相当一部分NLP的问题，不过仍然存在不足，即词向量与词向量之间都是相互独立的，我们无法通过这种词向量得知两个词在语义上是否相似，并且如果 N