Word Embeddings And Word Sense

最新推荐文章于 2023-03-09 11:25:21 发布

Ritchie_Leung

最新推荐文章于 2023-03-09 11:25:21 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习 NLP 文章标签： NLP word2vec word embedding skip-gram CBOW

本文链接：https://blog.csdn.net/sinat_29819401/article/details/90669304

版权

最近在学习2019版的CS224N，把所听到的知识做成笔记，以便自己不时地回顾这些知识，另外还希望可以方便没有时间看课程的朋友们用来做个快速的overview（当然，亲自上课是最好的选择）。我也尽量地把所有课程的知识细节都写出来，以及一些相关的知识都牵扯进来。

近年来NLP领域发展变化得比较大，语言模型已经开始大行其道，词嵌入技术差不多变成了只是一个稀疏向量的稠密化过程。尽管如此，我认为词嵌入技术仍然还是NLP发展历程中重要的里程碑，因为这个技术让人们可以用数字来描述词义，并且在很多领域都取得了比之前更好的表现。

Discrete Representation

文本是非结构化数据，该如何表达以适合用于分析是一个比较有挑战的问题。One-Hot编码是解决这个问题的最简单也是最直接的办法。
接下来用一段话简单描述一下One-Hot编码。假设我们词表(vocabulary)有V个单词，我们对每个单词都赋予一个下标i（i属于0…V-1），每个单词由一个长度为V的向量表示，其中只有对应下标的元素为1，其他元素均为0。借用Tensorflow官方的一个图：

图一 One-Hot编码示例

One-Hot编码虽然简单易用，但是缺点也很明显：

词向量长度等于词表长度，而且词向量是及其稀疏的，当词表很大时计算复杂度会很大;
任意两个词都是正交的，意味着无法从One-Hot编码中获取词与词之间的关系
任意两个词的距离都是相等的，无法从距离上反应两个词的语义相关度

顺带一提，针对缺点1,其实早期已经有一些解决办法，其中比较简单的办法是Hash Trick。Hash Trick是将每个词通过一个哈希函数计算得出各自的哈希值，然后让哈希值作为这个词在词表中的index。这么一顿操作的结果是，词向量变成了一个可人为指定长度的向量，极大地降低了稀疏性带来的额外计算。另外这种方法也面临着哈希冲突的问题（即不止一个词映射到同一个哈希值）。不管怎样，这种方法很直接，很暴力，但也被实践证实了是很有效的。不过这个trick仍然无法给词义计算带来帮助。

图二 Hash Trick

Distributional Representation

说实话其实我一直理解不了Distributional这个词（可能是有什么渊源？或者是相对于只有一个非零元素的离散性词向量而言？欢迎各位大神指教），我的理解就是分布式表述是用连续性的稠密向量来表示词语。分布式表述的好处在于它能更好地表达词的意思，而且通过稠密向量也可以很容易的计算出词与词的关系（词与词之间不再两两正交），而且有新词语来的时候我们不需要扩展向量的维度，只需要将词语映射到维度远小于词表长度的向量就好了。

顺带提一下，后续的很多方法都是基于这句富含哲学意义的话：

You shall know a word by the company it keeps.

人们明白了一个指导思想：语义是由上下文赋予的，于是，人们开始利用上下文来计算词的语义。

Word2Vec

Word2Vec是谷歌研究员在2013年提出来的方法，我觉得它是里程碑式的诞生，因为它不仅仅可以用于捕获词义，还可以用来辅助解决其他NLP领域的问题。接下来，我先介绍它大概的算法原理，具体实现细节会放到后面（按课程顺序）。
这里归纳一下：

Word2Vec需要用大量的语料来实现自监督学习(self-supervise learning)。其中，语料是NLP中对用来训练的文本数据的称呼，自监督学习是指训练方法是监督学习，只是这个label是来自于自身（回顾一下那句富含哲学意义的名言）。
在计算时采用固定大小的采样窗口，使用中间词c(center word)去预测环境词o(context words)（图三），或者反过来使用环境词预测中间词。在遍历语料的过程中，下文我们默认采用中间词预测环境词这种方法，即P(o|c)。

图三中间词预测上下文(来自https://www.jianshu.com/p/af8f20fe7dd3)

使用中间词预测环境词，即在输入中间词的时候需要使对应环境词的预测概率尽可能的大，即要最大化P(o|c)，而预测函数则定义为：
$\dfrac{exp(u_o^{\prime}\cdot{v_c})}{\sum_w{exp(u_w^{\prime}\cdot{v_c})}}$
模型参数即为词向量（注：在上例中每个模型中都有两个向量：u和v）。
求偏导（以对v为例）：
$\begin{aligned} \frac{\partial}{\partial{v_c}}{logP(o|c;\theta)} & =\frac{\partial}{\partial{v_c}}{log[exp(u_o^{T}\cdot{v_c})]}-\frac{\partial}{\partial{v_c}} {log[\sum_w{exp(u_w^{T}\cdot{v_c})}]}\\ & =u_o-\sum_x^{|V|}{\frac{ {exp(u_x^{T}\cdot{v_c})}}{\sum_wexp(u_w^{T}\cdot{v_c})}\cdot{u_x}}\\ & =u_o-\sum_x^{|V|}{P(x|c)}\cdot{u_x} \end{aligned}$

最低0.47元/天解锁文章

Ritchie_Leung

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word Embeddings And Word Sense

最近在学习2019版的CS224N，把所听到的知识做成笔记，以便自己不时地回顾这些知识，另外还希望可以方便没有时间看课程的朋友们用来做个快速的overview（当然，亲自上课是最好的选择）。我也尽量地把所有课程的知识细节都写出来，以及一些相关的知识都牵扯进来。近年来NLP领域发展变化得比较大，语言模型已经开始大行其道，词嵌入技术差不多变成了只是一个稀疏向量的稠密化过程。尽管如此，我认为词嵌...
复制链接

扫一扫

专栏目录