文章目录
前言
本文主要介绍了词向量技术,包括词向量基础、SkipGram模型详解、其他词向量技术和基于SkipGram的Airbnb房屋推荐论文解读。
一、词向量基础
1.单词的表示
独热编码存在一些明显的缺点:
-
无法表示单词的含义
不能通过向量的形式来表示一个单词所表达的含义,也不能衡量两个单词之间的(语义)相似度。而在NLP任务中,最基础的要求就是需要用量化的方式(向量或者矩阵)表示一个单词的含义,进而表示一个句子和一篇文章。
-
向量非常稀疏
-
向量的维度非常大
向量的长度等于词库的长度,词库一般会很大,所以向量的长度也很大,带来很大的计算和存储压力。
显然,此时需要探索另外的方式,就是词向量。
2.从独热编码到分布式表示
基于独热编码的缺点,提出一种全新的词表示方式,即分布式表示。如下: