因为在组里分享会要讲word2vec,重新整理了之前凌乱的笔记,结果发现有不少新的收获,真是所谓的温故而知新!
词的向量化与word2vec简介
word2vec最初是Tomas Mikolov发表的一篇文章[1],同时开源了相应的代码,作用是将所有词语投影到 K 维的向量空间,每个词语都可以用一个
为什么要将词用向量来表示呢?这样可以给词语一个数学上的表示,使之可以适用于某些算法或数学模型。通常将词语表示成向量有如下两种方法。
一、one-hot 表示法
假如语料库里一共有 N 个词,one-hot表示即是为每个词分配一个唯一的索引,并且将每个词表示为