词嵌入算法

Word Embedding
为了克服文字长短不一和将词与词之间的联系纳入模型的困难,人们使用了一种技术——词嵌入。
常见的词嵌入算法有:“Word2Vec”和“Glove”

「词嵌入(word embeddings)」术语,来指代词语在低维度向量空间的稠密表示。「词嵌入」和「分布式表征(distributed representations)」是两种可互换的表示方法。我们将特别强调「神经词嵌入(neural word embeddings)」,即运用神经网络训练的词嵌入。

词嵌入简史
从上世纪九十年代开始,向量空间模型就已在分布式语义中得到了应用。当时,许多用于预测连续空间的词表征的模型已经被研究了出来,其中包括隐含语义分析(LSA:Latent Semantic Analysis)和隐狄利克雷分布(LDA:Latent Dirichlet Allocation)。想要详细了解词嵌入背景下的分布式语义的历史的读者可以看看这篇文章:https://www.gavagai.se/blog/2015/09/30/a-brief-history-of-word-embeddings/
Bengio 等人在 2003 年创造了词嵌入这个名词,并且在自然语言模型中将其与模型参数一起联合训练。据了解 Collobert 和 Weston 于 2008 年首次展示了预训练的词嵌入的实际应用。他们里程碑式的论文《A unified architecture for natural language processing》不仅将词嵌入确立成了一种可用于下游任务的有用工具,还引入了现在已经成为了许多方法的基础的神经网络架构。但是让词嵌入最终能流行起来的是 Mikolov 等人在 2013 年创立的 word2vec,这是一个允许无缝训练和使用预训练嵌入的工具套件。在 2014 年,Pennington 发布了一个具有竞争力的预训练的词嵌入集 GloVe,标志着词嵌入已经成为了主流。
词嵌入是目前无监督学习的成功应用之一。它们最大的好处无疑是它们不需要昂贵的人工标注,而是从未标注的现成大数据集中派生的。然后预训练的词嵌入就可以运用在仅使用少量有标注数据的下游任务中了。

机器之芯

GloVe算法本身使用了全局信息,内存耗费多。

word2vec: an unsupervised algorithm for learning the meaning behind words.
word2vec learns relationships between words automatically.
word2vec 的两种模型“CBOW”和“skip-gram”
词汇类比任务(所谓的analogy task,如king – queen = man - woman)用词对“man-woman”类比词对“king - queen”

学习任务相关(Task-specific)的word embedding。如果脱离实际任务,很难讲不同的word embedding谁比谁更“好”。比如对于句法分析、我们可以在word2vec中利用句法依存上下文,从而使得我们所学习到的word embedding更好地表达句法相似性,进而提升句法分析任务的性能(Levy and Goldberg, 2014)。而对于语义相关的任务,情况则不同。

[个人见解]
ConvMF采用GloVe主要是要提取文本的语义特征,用于学习用户对物品评论的隐含特征,用于物品的推荐。推荐系统应侧重学习评论文本的语义特征,用于更精确地描述用户的兴趣爱好和物品的潜在特征,并对用户的兴趣和物品之间的潜在语义特征关联起来,这也是词嵌入的初衷(将词与词之间的联系纳入模型)。

引用
embedding
Evaluation of Word Vector Representations by Subspace Alignment (Tsvetkov et al.)可解释性
Evaluation methods for unsupervised word embeddings (Schnabel et al.)

两者比较

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值