CS224N笔记——词向量表示_点积求词向量-CSDN博客

本文链接：https://blog.csdn.net/qq_37098526/article/details/89550832

Word meaning

Word2vec introduction

Word2vec目标函数的梯度

Word meaning

如何表示一个词的词义？

在韦氏词典中meaning的词义为：

(1)用单词、短语等表示的想法；

(2)人们想要通过单词、符号等表示的想法；

(3)在写作、艺术等作品中表达的思想。

如何用计算机处理词义？

最常用的方法：用分类资源来处理词义，如果是英语，最著名的分类资源是WordNet，能够查询一类东西的上位词（熊猫-肉食动物-哺乳动物-物体）和同义词（good:honorable,respectable）

离散化表征的问题

同义词资源很多但会遗漏大量的细微差别，例如：good的一组同义词是adept,expert,good,practiced,proficient,skillful，但会遗漏一些新词（不太可能持续更新到同义词集中），例如：wicked,badass,nifty,crack,ace,wizard,genius,ninja。

人们往同义词集里加什么词是一个非常主观的选择，也需要大量人力多年的努力，同时很难对词汇的相似性给出准确的定义。

几乎所有的基于规则和统计的NLP研究都使用了原子符号来表示单词，例如使用one-hot编码来表示单词。

从符号化到离散化表征

如果使用one-hot编码，查询向量和文档向量正交，他们之间没有天然的近似含义

可以建立词汇之间一套完全独立的相似性关系，或者探索一种直接的方法，一个单词编码表示的含义是可以直接阅读的，在这些表示中，就可以看出相似性，我们要做的就是构造这些向量，然后做一种类似求解点积的操作，这样就可以让我们了解词汇之间有多少相似性。

基于分布相似性的表征

只需通过观察某个词汇出现的上下文，并对这些上下文做一些处理来得到大量表示这个词汇含义的值。

例如下面这句话：

就可以用banking的上下文中的词来表示banking的含义。

词义是由向量形式定义的

给每一个单词构造一个密集型向量，让它可以预测目标单词所在文本的其他词汇。

学习神经网络词嵌入的通用方法

定义一个模型，根据中心词汇 $w_{t}$ 预测它上下文词汇(context)出现的概率 $p(context|w_{t})$ ，其损失函数为 $J=1-p(w_{-t}|w_{t})$ ，这里的-t表示围绕在t中心词周围的其他单词。在大型语料库的各个地方t重复这样的操作，调整词汇表示，从而使损失最小化。