Infomap Algorithm Description

最新推荐文章于 2024-05-23 09:45:21 发布

张博208

最新推荐文章于 2024-05-23 09:45:21 发布

阅读量2.2k

点赞数 1

分类专栏： complex network

complex network 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

算法描述（Infomap Algorithm Description）

这个包内的Infomap软件，用一个语料库的文本文档，构造一个WORDSPACE（词空间），在其中语料库中的词表示为词向量（word vectors）。一个词向量是个数字的列表（叫做坐标（coordinates）），它编码关于该词如何在语料库中分布的信息。很多实验证明了，向量类似的词经常是意义也是类似的或者相近的：因此，Infomap的WORDSPACE（词空间）通过自动比较其在文本中的行为来建模词之间的相似性。

软件中所用的主要算法是，构造共现（生）矩阵，通过减少维度集中信息，用余弦相似性比较词向量，执行逻辑运算（迄今为止这些运算包括否选言和否连言）。这些步骤我们依次描述。

构造共现矩阵（Building coocurrence matrices）

许多信息检索系统由建立术语文档矩阵开始，这是一个表，每个术语一行，每个文档一栏：每个数字记录一个特定的词出现在特定文档中的次数。这样就给每个词一个数字的列表，这个数字列表就叫做词向量（word-vector）。看待这些数字列表的一个比较好的方式是作为“意义-坐标”，就如同地球表面空间座标种点的经度和纬度一样。那么，每个词被分派给一个坐标列表，可以决定某个向量空间（经常是高维度的）中的一个点。对语言向量不完全地满意的读者也许读读导论一章是有益的。

在研究词及其属性时，术语矩阵不见得很理想，因为很多类似词很少用于相同的文档中：例如，体育事件的报道及经常会提到一个裁判（umpire）或裁判员（referee），但很少这两个词在一篇文章中一起用，因此要看出这两个词相似就很难。Infomap软件通过选择一些特殊的词承载的内容，根据出现的频率把坐标指派给接近内容承载词的其他的词。还是用个例子来做出解释最好：

保持热的食物热; 温暖不够。设置烤箱温度在140度以上。使用一个肉温度计。并且箔盖保持食物潮湿。俩小时内食用。

“变化总在发生”，热情洋溢的号手说，他的话和注意到他的小号一样很快。"关于爵士乐，对于很多爵士乐发烧友来说，Ferguson是很有趣的事之一"。

music 和 food就是内容-词的好坐标：它们通常是有歧义的，似乎用其他的词定义会有清晰的意义。（尽管总是会有潜在地混淆用法，诸如，"If music be the food of love, play on（如果音乐是爱情的良好食物，那么就继续演奏）"。上面的例子开始给我们下面的计数数据：

	eat	hot	jazz	meat	trumpet
Music			3		1
Food	1	2		1

我们通过这样的语料库来著手进行，对于每个词建立起一个“数字签名”，告诉我们在每个内容承载词的文本窗口附加该词出现的频率。一种相对稳定的方法被选择来作为内容词，在去掉停用词（stopwords，诸如，the, we和 of去掉）之后一个文档中有1000个最常见的词。这样，WORDSPACE软件构造了一个大共现矩阵，其中栏是内容承载词，每行记录既定词出现在与特定内容承载词相同一文本区域的次数。

在预处理的这个阶段，如果在语料库中适当地记录了，那么WORDSPACE软件可以结合诸如词类标记标记及多4表达式这样的额外的语言学信息。

减少维度（Reducing dimensions）

任何向量空间的维度数定义为表示每个点所需要的坐标数，因此，每行有1000个数字的一个表，每行表示在1000个维度空间中的一个点。这总是维度太过于多了--一点又太多的空间，其中传播与这样的结果就是有很多冗余的信息。减少维度数，把信息集中到一个小空间的方式很多。例如，右面的图表示，在cars 和driving的上下文中出现的几个词。既然这些词经常是上下文基本上是相同的，所以用一个单一的轴代替car 和 drive的坐标轴把它们结合起来是完全可行的。

技术上通常使用叫做singular value decomposition（单值解析）的Infomap WORDSPACE软件，在信息检索中用来降低标准术语文档矩阵中的稀疏性。这个过程通常叫latent semantic indexing（潜在语义检索），或者潜在语义分析。这只是减少一个数据集维数的一种可能的方法：其他的包括概率性的潜在语义分析（probabilistic latent semantic analysis）及局部线性嵌入（local linear embedding）。

在斯坦福运用WORDSPACE软件时，我们使用了Mike Berry的SVDPACKC来计算单一值解析。SVDPACKC的许可与WORDSPACE软件是不同的，如果你想使用SVDPACK，你必须获得正确的许可证。你想要减少的维度数，是可以改变的另一个参数：我们队对100维获得了很好的结果，其他的研究人员发现在200 到 300维度之间，运行的最好。对于很多事情，有理由断定，“最好”部分地是由手头的任务决定的，“表示意义需要多少维度”不同的情形下有很多答案。这些向量是用程序在预处理目录中产生的。

用余弦相似性比较词向量（Comparing word vectors using cosine similarity）

既然每个词由一个减少了维度数到适当数目的一个向量表示，那么我们可以开始对词进行互相比较，看它们是类似的或者是不同的。这么做一个标准的方式是，使用余弦相似性度量方法。给向量 a 一个坐标系列(a1, ... , an)，给向量 b 一个坐标系列（b1, ... , bn）。它们的数积被定义为和

a.b = a1b1 + ... + anbn,

如果我们取模||a|| and ||b||，那么我们可以得到两个向量间的角的余弦，叫做其余弦相似性（cosine similarity）。

cos(a,b) = (a1b1 + ... + anbn) / (||a|| ||b||).

还有，在向量导言（introduction to vectors）中对这些操作有更详尽的描述。这使得我们能够用搜索（search）目录中有关（associate）的程序发现一个特定词的最近的邻居（相似性最高的那些词）。

向量形式化方法的最大好处是，允许我们通过一起增加其向量把词结合到句子或文档里。如果在预处理阶段建立了文章向量，那么相关（associate）程序还可以用来找出接近的文档，因为用于信息检索。

Schütze有时把这样的综合向量叫做上下文向量（context vectors），因为它们从特定词周围的上下文收集信息。上下文向量可以可以集中使用各种不同的聚类算法(clustering algorithms)，并且不同聚类的质心（交叉点）可以用来表示词的不同意义，给出意义向量。

词空间中的数量联系（Quantum connectives in WORDSPACE）

尽管很多目标都很成功，包括语言习得和信息检索，但是向量模型迄今有着研究人员才开始追踪的严重的理论缺陷。WORDSPACE，我们描述为迄今是很直截了当的方法：迄今我们引进的只有就向量的运算是附加的和，还有数积，二者没有哪个受向量出现的次序的影响（比较起来，在真实的语言中，Cain killed Abel 和 Abel killed Cain意义完全不同）。作为开始，我们就要区分不同的逻辑联系:搜索A NOT B, A OR B 及 A AND B不应该给出相同的结果。这结果是相当简单的，至少否定的等式是这样。

a NOT b = a - (a.b)b

可以表示，给表达式"a NOT b"一个向量，它与不期待的向量b有0余弦相似性。具有0相似性的向量被说成是互相正交的（orthogonal），因此相应于表达式"NOT b"的WORDSPACE 区域是与b正交的点的子空间。类似地，向量a与 b跨越的平面给出表达式"a OR b"，与通过正交性的否定概念是一致的。这些运算证实了文档检索实验（document retri experiments）中在与传统的布尔联系比较时令人感兴趣的强度（有趣的脆弱性）。

事实证明，1930年，Birkhoff（伯克霍夫）和von Neumann（冯诺依曼）正是对向量使用相同的逻辑运算，描述了量子力学系统的逻辑，这就是为什么逻辑运算符被称为量子联系（quantum connectives），系统作为一个整体被称为量子逻辑（quantum logic）。

WORDSPACE软件目前实现了量词否定，和否定的析取的版本（这又与计算的原因，结果证明比正的析取更可追踪的多）。

在Infomap项目的不同阶段，在Stanley Peters的指导下的计算语义实验室，这个软件的开发及支持软件的方法接受了几位研究人员的奉献。Hinrich Schütze 用词义消歧（ word sense discrimination）的WORDSPACE模型，对原来的方法，进行了很多早期工作。Stefan Kaufmann当时负责编写现在的软件所主要依据的新版本。Dominic Widdows 增加了逻辑关系（ logical connectives）并融入其他语言学信息，包括词类标记及多词表达式。现在公开发布的版本由Scott Cederberg 管理。另外几位研究人员的奉献及实验，我们在论文（Papers）中描述。

参考文献（References）

向量与向量空间的概念介绍（An introduction to the concepts behind vectors and vector spaces）:
Dominic Widdows (即将出版)，CSLI出版公司几何与意义的第5章，词向量与搜索引擎（Word Vectors and Search Engines）。（Dominic Widdows (to appear) Word Vectors and Search Engines Chapter 5 of Geometry and Meaning, CSLI publications.）
歧义学习与消解的词空间用法的早期工作（Pioneering work in the use of WORDSPACE for ambiguity learning and resolution）:
Hinrich Schütze (1997).语言学习中的歧义消解。CSLI出版。（Hinrich Schütze (1997). Ambiguity Resolution in Language Learning.） CSLI Publications. CSLI Lecture Notes number 71.
（Hinrich Schutze (1998). 自动词义消歧（Automatic Word Sense Discrimination）. 计算语言学）Computational Linguistics), 24(1), 97-123.
A very small sample from the literature on dimensionality reduction in semantic processing:
Michael W. Berry and Susan T. Dumais, and Gavin W. O'Brien (1994). 线性代数用于信息检索（Using Linear Algebra for Intelligent Information Retri）. Published in SIAM Review 37:4 (1995), pp. 573-595.
Thomas K. Landauer and Susan T. Dumais (1997). 柏拉图问题解决方案：知识归纳表示、习得的潜在语义分析的理论（A solution to Plato's problem: The Latent Semantic Analysis theory of acquisition, induction andrepresentation of knowledge）. Psychological Review, 104, 211-240
这些论文从理论与实践的角度论述 WORDSPACE 中的数量关系（These papers describe the quantum connectives in WORDSPACE from a theoretical and a practical standpoint）:
Dominic Widdows and Stanley Peters (2003). 词向量与数量逻辑：否定与析取的实验（ Word Vectors and Quantum Logic: Experiments with negation and disjunction）. 第8届语言数学会与（Eighth Mathematics of Language Conference）, Bloomington, Indiana, June 20-22, 2003, pages 141-154 (.ps)
Dominic Widdows (2003). 词义及文本检索的向量空间中的正交否定（ Orthogonal Negation in Vector Spaces for Modelling Word-Meanings and Document Retri）. 计算语言学协会第41届年会（41st Annual Meeting of the Association for Computational Linguistics）, 札幌（Sapporo）, 日本（Japan）, July 7-12, pages 136-143. (.ps)
这些论文论述词向量与词类信息及多词表达式结合(These papers describe the combination of word vectors with part of speech information and multiword expression_r_rs）:

非监督分类方法的发展相结合，句法信息和统计信息。

Dominic Widdows (2003). 句法与统计信息结合的分类法开发的非监管方法（Unsupervised methods for developing taxonomies by combining syntactic and statistical information）. In Proceedings of HLT/NAACL, Edmonton, Canada, June 2003, pages 276-283. (.ps)
Timothy Baldwin, Colin Bannard, Takaaki Tanaka and Dominic Widdows (2003) 多词表达式分解性的经验模型（An Empirical Model of Multiword Expression Decomposability）, In Proceedings of the ACL-2003 Workshop on Multiword Expressions: Analysis, Acquisition and Treatment, Sapporo, Japan, pp. 89-96.

张博208

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Infomap Algorithm Description

算法描述（Infomap Algorithm Description）这个包内的Infomap软件，用一个语料库的文本文档，构造一个WORDSPACE（词空间），在其中语料库中的词表示为词向量（word vectors）。一个词向量是个数字的列表（叫做坐标（coordinates）），它编码关于该词如何在语料库中分布的信息。很多实验证明了，向量类似的词经常是意义也是类似的或者相近的：因此，...
复制链接

扫一扫