Infomap Algorithm Description

算法描述(Infomap Algorithm Description)

这个包内的Infomap软件,用一个语料库的文本文档,构造一个WORDSPACE(词空间),在其中语料库中的词表示为词向量(word vectors)。 一个词向量是个数字的列表(叫做坐标(coordinates)),它编码关于该词如何在语料库中分布的信息。很多实验证明了,向量类似的词经常是意义也 是类似的或者相近的:因此,Infomap的WORDSPACE(词空间)通过自动比较其在文本中的行为来建模词之间的相似性。

软件中所用的主要算法是,构造共现(生)矩阵,通过减少维度集中信息,用余弦相似性比较词向量,执行逻辑运算(迄今为止这些运算包括否选言和否连言)。这些步骤我们依次描述。


构造共现矩阵(Building coocurrence matrices)

许多信息检索系统由建立术语文档矩阵开始,这是一个表,每个术语一行,每个文档一栏:每个数字记录一个特定的词出现在特定文档中的次数。这样就给每个词一个数字的列表,这个数字列表就叫做词向量(word-vector)。看待这些数字列表的一个比较好的方式是作为“意义-坐标”,就如同地球表面空间座标种点的经度和纬度一样。那么,每个词被分派给一个坐标列表,可以决定某个向量空间(经常是高维度的)中的一个点。对语言向量不完全地满意的读者也许读读导论一章是有益的。

在研究词及其属性时,术语矩阵不见得很理想,因为很多类似词很少用于相同的文档中:例如,体育事件的报道及经常会提到一个裁判(umpire)或裁判员(referee),但很少这两个词在一篇文章中一起用,因此要看出这两个词相似就很难。Infomap软件通过选择一些特殊的词承载的内容,根据出现的频率把坐标指派给接近内容承载词的其他的词。还是用个例子来做出解释最好:

保持热的食物热; 温暖不够。设置烤箱温度在140度以上。使用一个肉温度计。并且箔盖保持食物潮湿。俩小时内食用。“变化总在发生”,热情洋溢的号手说,他的话和注意到他的小号一样很快。"关于爵士乐,对于很多爵士乐发烧友来说,Ferguson是很有趣的事之一"。

music 和 food就是内容-词的好坐标:它们通常是有歧义的,似乎用其他的词定义会有清晰的意义。(尽管总是会有潜在地混淆用法,诸如,"If music be the food of love, play on(如果音乐是爱情的良好食物,那么就继续演奏)"。上面的例子开始给我们下面的计数数据:

 eathotjazzmeattrumpet
Music  3 1
Food12 1 

 

我们通过这样的语料库来著手进行,对于每个词建立起一个“数字签名”,告诉我们在每个内容承载词的文本窗口附加该词出现的频率。一种相对稳定的方法被选择来作为内容词,在去掉停用词(stopwords,诸如,thewe和 of去掉)之后一个文档中有1000个最常见的词。这样,WORDSPACE软件构造了一个大共现矩阵,其中栏是内容承载词,每行记录既定词出现在与特定内容承载词相同一文本区域的次数。

在预处理的这个阶段,如果在语料库中适当地记录了,那么WORDSPACE软件可以结合诸如词类标记标记及多4表达式这样的额外的语言学信息。


减少维度(Reducing dimensions)

Infomap <wbr>算法描述任何向量空间的维度数定义为表示每个点所需要的坐标数,因此,每行有1000个数字的一个表,每行表示在1000个维度空间中的一个点。这总是维度太过于 多了--一点又太多的空间,其中传播与这样的结果就是有很多冗余的信息。减少维度数,把信息集中到一个小空间的方式很多。例如,右面的图表示,在cars 和driving的上下文中出现的几个词。既然这些词经常是上下文基本上是相同的,所以用一个单一的轴代替car 和 drive的坐标轴把它们结合起来是完全可行的。

技术上通常使用叫做singular value decomposition(单值解析)的Infomap WORDSPACE软件,在信息检索中用来降低标准术语文档矩阵中的稀疏性。这个过程通常叫latent semantic indexing(潜在语义检索),或者潜在语义分析。这只是减少一个数据集维数的一种可能的方法:其他的包括概率性的潜在语义分析(probabilistic latent semantic analysis)及局部线性嵌入(local linear embedding)。

在斯坦福运用WORDSPACE软件时,我们使用了Mike Berry的SVDPACKC来 计算单一值解析。SVDPACKC的许可与WORDSPACE软件是不同的,如果你想使用SVDPACK,你必须获得正确的许可证。你想要减少的维度数, 是可以改变的另一个参数:我们队对100维获得了很好的结果,其他的研究人员发现在200 到 300维度之间,运行的最好。对于很多事情,有理由断定,“最好”部分地是由手头的任务决定的,“表示意义需要多少 维度”不同的情形下有很多答案。这些向量是用程序在预处理目录中产生的。


用余弦相似性比较词向量(Comparing word vectors using cosine similarity)

既然每个词由一个减少了维度数到适当数目的一个向量表示,那么我们可以开始对词进行互相比较,看它们是类似的或者是不同的。这么做一个标准的方式是,使用余弦相似性度量方法。给向量 a 一个坐标系列(a1, ... , an),给向量 b 一个坐标系列(b1, ... , bn)。它们的数积被定义为和
 

a.b = a1b1 + ... + anbn,


如果我们取模||a|| and ||b||,那么我们可以得到两个向量间的角的余弦,叫做其余弦相似性(cosine similarity)。
 

cos(a,b) = (a1b1 + ... + anbn) / (||a|| ||b||).


还有,在向量导言(introduction to vectors)中对这些操作有更详尽的描述。这使得我们能够用搜索(search)目录中有关(associate)的程序发现一个特定词的最近的邻居(相似性最高的那些词)。

向量形式化方法的最大好处是,允许我们通过一起增加其向量把词结合到句子或文档里。如果在预处理阶段建立了文章向量,那么相关(associate)程序还可以用来找出接近的文档,因为用于信息检索。

Schütze有时把这样的综合向量叫做上下文向量(context vectors),因为它们从特定词周围的上下文收集信息。上下文向量可以可以集中使用各种不同的聚类算法(clustering algorithms),并且不同聚类的质心(交叉点)可以用来表示词的不同意义,给出意义向量。


词空间中的数量联系(Quantum connectives in WORDSPACE)

尽管很多目标都很成功,包括语言习得和信息检索,但是向量模型迄今有着研究人员才开始追踪的严重的理论缺陷。WORDSPACE,我们描述为迄今是很直截 了当的方法:迄今我们引进的只有就向量的运算是附加的和,还有数积,二者没有哪个受向量出现的次序的影响(比较起来,在真实的语言中,Cain killed Abel 和 Abel killed Cain意义完全不同)。作为开始,我们就要区分不同的逻辑联系:搜索A NOT BA OR B 及 A AND B不应该给出相同的结果。这结果是相当简单的,至少否定的等式是这样。
 

a NOT b = a - (a.b)b


可以表示,给表达式"a NOT b"一个向量,它与不期待的向量b有0余弦相似性。具有0相似性的向量被说成是互相正交的(orthogonal),因此 相应于表达式"NOT b"的WORDSPACE 区域是与b正交的点的子空间。类似地,向量a与 b跨越的平面给出表达式"a OR b",与通过正交性的否定概念是一致的。这些运算证实了文档检索实验(document retri experiments)中在与传统的布尔联系比较时令人感兴趣的强度(有趣的脆弱性)。

事实证明,1930年,Birkhoff(伯克霍夫)和von Neumann(冯诺依曼)正是对向量使用相同的逻辑运算,描述了量子力学系统的逻辑,这就是为什么逻辑运算符被称为量子联系(quantum connectives),系统作为一个整体被称为量子逻辑(quantum logic)。

WORDSPACE软件目前实现了量词否定,和否定的析取的版本(这又与计算的原因,结果证明比正的析取更可追踪的多)。


在Infomap项目的不同阶段,在Stanley Peters的指导下的计算语义实验室,这个软件的开发及支持软件的方法接受了几位研究人员的奉献。Hinrich Schütze 用词义消歧( word sense discrimination)的WORDSPACE模型,对原来的方法,进行了很多早期工作。Stefan Kaufmann当时负责编写现在的软件所主要依据的新版本。Dominic Widdows 增加了逻辑关系( logical connectives)并融入其他语言学信息,包括词类标记及多词表达式。现在公开发布的版本由Scott Cederberg 管理。另外几位研究人员的奉献及实验,我们在论文(Papers)中描述。


参考文献(References)

  • 向量与向量空间的概念介绍(An introduction to the concepts behind vectors and vector spaces):
     
  • Dominic Widdows (即将出版),CSLI出版公司几何与意义的第5章,词向量与搜索引擎(Word Vectors and Search Engines)。 (Dominic Widdows (to appear) Word Vectors and Search Engines Chapter 5 of Geometry and Meaning, CSLI publications.)


  • 歧义学习与消解的词空间用法的早期工作(Pioneering work in the use of WORDSPACE for ambiguity learning and resolution):
     
  • Hinrich Schütze (1997).语言学习中的歧义消解。CSLI出版。(Hinrich Schütze (1997). Ambiguity Resolution in Language Learning.) CSLI Publications. CSLI Lecture Notes number 71.
  • (Hinrich Schutze (1998). 自动词义消歧(Automatic Word Sense Discrimination). 计算语言学)Computational Linguistics), 24(1), 97-123.


  • A very small sample from the literature on dimensionality reduction in semantic processing:
     
  • Michael W. Berry and Susan T. Dumais, and Gavin W. O'Brien (1994). 线性代数用于信息检索(Using Linear Algebra for Intelligent Information Retri). Published in SIAM Review 37:4 (1995), pp. 573-595.
  • Thomas K. Landauer and Susan T. Dumais (1997). 柏拉图问题解决方案:知识归纳表示、习得的潜在语义分析的理论(A solution to Plato's problem: The Latent Semantic Analysis theory of acquisition, induction andrepresentation of knowledge). Psychological Review, 104, 211-240


  • 这些论文从理论与实践的角度论述 WORDSPACE 中的数量关系(These papers describe the quantum connectives in WORDSPACE from a theoretical and a practical standpoint):
     
  • Dominic Widdows and Stanley Peters (2003). 词向量与数量逻辑:否定与析取的实验( Word Vectors and Quantum Logic: Experiments with negation and disjunction). 第8届语言数学会与(Eighth Mathematics of Language Conference), Bloomington, Indiana, June 20-22, 2003, pages 141-154 (.ps)
  • Dominic Widdows (2003).  词义及文本检索的向量空间中的正交否定( Orthogonal Negation in Vector Spaces for Modelling Word-Meanings and Document Retri). 计算语言学协会第41届年会(41st Annual Meeting of the Association for Computational Linguistics), 札幌(Sapporo), 日本(Japan), July 7-12, pages 136-143. (.ps)


  • 这些论文论述词向量与词类信息及多词表达式结合(These papers describe the combination of word vectors with part of speech information and multiword expression_r_rs):

非监督分类方法的发展相结合,句法信息和统计信息。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值