词向量源码解析：（4.1）hyperwords源码解析

最新推荐文章于 2019-03-06 20:23:27 发布

Sailing_ZhaoZhe

最新推荐文章于 2019-03-06 20:23:27 发布

阅读量681

点赞数

分类专栏：词向量

本文链接：https://blog.csdn.net/u011793737/article/details/77944865

版权

词向量专栏收录该内容

41 篇文章 3 订阅

订阅专栏

这个词向量的工具包很值得一读。代码的下载地址是https://bitbucket.org/omerlevy/hyperwords。相对于前面介绍的word2vec和GloVe，这个工具包有以下几个优点：

第一点，这个工具包支持任意形式的上下文。word2vec和GloVe中，我们对于上下文的定义就是中心词周围的单词。一个很直接的想法是我们可以往上下文中引入更加丰富的信息，使得我们能够训练更加高质量的词向量。比如通过加入dependency tree的信息，我们能更准确的知道中心词的上下文包含了哪些单词（有时两个单词虽然相邻，但是可能并没有什么关联）。同时，dependency tree也告诉了我们单词与单词之间的关系（谁是主语谁是宾语等等）。这些理论上都对我们得到更高质量的词向量有所帮助。除了dependency tree，我们还能加入比如文档的信息，可以想象两个单词总是在同一文档中共现也能说明问题。还可以加入位置的信息，ngram的信息等等。加入不同的信息可以让我们能得到更高质量，性质不同的词向量，这是word2vec和GloVe中都不支持的。在这个工具包中，为了让word2vec支持不同上下文，作者改进了word2vec，做了一个叫word2vecf的工具包。

第二点，这个工具包中包括了PPMI和SVD这两个很传统的模型。PPMI实际上就是最简单经典的单词表示方法，bag-of-contexts。单词向量的维度就是上下文单词词典的大小，每一维对应一个单词。这种表示一般叫稀疏的表示，因为它的单词表示的维度高，大多数的位置都是零（两个单词从来没有共现过）。当然这种单词表示也可以叫做显式的表示，因为每一维代表什么我们的都知道（比如每一维对应一个单词，或者其他的特征）。这种表示思想能追溯到很久远以前，这里就不多说了。PPMI是指在bag-of-contexts上面加一些权重，比如of，the共现的显然没有什么信息量，因为of， the本来就大量的出现，很有可能就不小心一起共现了。所以要对单词表示加一些权重，像ifidf那样。SVD是一种非常经典的矩阵分解降维的技术，对PPMI分解得到稠密的单词表示。

第三点，这个工具包把词向量的各种预处理以及各种模型串了起来。这样做有很多好处，首先一些东西比如像词典可以被很多模型共用的，我们可以看到word2vec和GloVe都是在一开始就建立词典。然后，一些模型的输出可以作为下一个模型的输入。比如SVD会分解PPMI矩阵。运行一遍代码，可以得到word2vec，PPMI以及SVD生成的词向量。所以看这个工具包能对我们理解不同的词向量模型帮助还是很大的。

第四点，所有的预处理部分，比如建立词典，抽取word pairs等都是用python写的。模型部分，PPMI，SVD是用python写的。最后对此向量的评估也是用python写的。我们后面分析代码是大家也会看到，很多地方用python几行代码就能实现C语言几十行代码都无法实现的功能。整个程序的可读性比word2vec和GloVe好很多。

当然这个工具包有一些缺点，比如没有GloVe模型，bug比较多，代码基本上没怎么优化，在大的语料上跑不出结果。后面我会介绍一个ngram2vec的工具包，在hyperwords上面进行了很多的改进，能够帮助我们更加高效的得到更高质量的词向量。

下面简单看一下这个工具包的内容。hyperwords文件中包含了核心代码。scripts包含了一些脚本，testsets包含了测试数据集。这里的测试数据集不仅有analogy任务，还有similarity任务。similarity任务是希望通过词向量得到的相似度能和人的认知相切合。比如人认为猫和狗的相似度应该大于猫和火车的相似度，那么我们的词向量应该也能有类似的性质。执行example_test.sh脚本就会执行整个流程，包括下载数据以及训练词向量以及对词向量进行评估。

我们再看看hyperwords里面有哪些文件。我们可以发现文件的名字很有意思，都叫##2##。比如corpus2pairs就表明整个文件输入语料，得到的是pairs，所谓pairs就是中心词，上下文单词对，word2vec就是在这个上面进行训练。word2vec中没有pair是因为它在扫描语料的时候就提取出pair进行训练，只是不写到磁盘上了。现在把pair写到磁盘上一个重要的原因是这样能够更便捷的支持任意形式的上下文。这个工具包就是由大量的##2##python文件构成，执行完一个执行下一个，一个的输出作为下一个的输入，可以看成一个工作流workflow，或者叫管道pipeline，表明从语料一步一步得到最终的词向量。

Sailing_ZhaoZhe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词向量源码解析：（4.1）hyperwords源码解析

这个词向量的工具包很值得一读。代码的下载地址是https://bitbucket.org/omerlevy/hyperwords。相对于前面介绍的word2vec和GloVe，这个工具包有以下几个优点：第一点，这个工具包支持任意形式的上下文。word2vec和GloVe中，我们对于上下文的定义就是中心词周围的单词。一个很直接的想法是我们可以往上下文中引入更加丰富的信息，使得我们能够训练更加高质
复制链接

扫一扫