Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis

以前我们都是听说的Latent Semantic Analysis,也就是所谓的“潜在语义分析”,一个很好的学习网站是:LSA。最近在看一个论文的时候,偶然看到了Explicit Semantic Analysis。于是去查了一下这个算法,发现很多地方都在用,而且在计算语义相关性上面用的很多。我不知道是否是我的理解有问题,但是我看了论文之后,突然发现这个算法怎么就是一个“信息检索”的过程。论文题目是《Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis》,作者是Gab。

 

摘要

这是一个新的方法,它是将文本的意思在一个高维的空间中表示,而这个概念空间就是wiki。wiki上面的每个文章看成一个概念,那么采用机器学习的方法就能够将任何文本显式的表示成wiki概念的带有权值的向量。后面的诸如相关性的计算就可以基于向量空间了。

三个方面的贡献:

  • 1,用自然概念的方式来表示自然语言文本的语义
  • 2,词和长文本片段用一个统一的方式表示
  • 3,ESA计算效果更好

 

ESA

灵感来自于想将文本用大量的背景知识来表示。将文本用预先定义好的自然概念来表示,这些概念是经过加权的而且易于理解。一个很重要的优点就是利用了大量的百科中人自己编辑的知识。使用机器学习的方法来建立一个“语义解释器”,它能够将自然语言的文本片段影射到一个加权的wiki概念向量。这样的语义分析之所以称为“explicit",我们操作的概念是用户能够理解的。

每个wiki概念用一个TFIDF概念表示,值表示一个词和这个概念的相关程度。为了加快速度,建立一个倒排索引。”语义解释器“是一个”centroid-based“分类器,也就是给定一个文本片段,需要将所有的wiki概念根据他们与片段的相关性进行排序。给定一个文档片段,首先也需要表示成一个TFIDF向量。然后查找这个向量,根据倒排找到相关的概念集合。然后通过一个将文本向量和第j个概念的向量进行点积的过程求得一个相关值。这样每个文本片段就可以用一个长度为N的向量表示,每个元素的值就表示和该文本片段的相关性。

这个过程让我想起了信息检索的过程,也就是检索相关文档的过程,至少我看第一遍的时候是这样感觉的。只不过这里换成这个名字可能是因为检索出来的不再是文档,而是易于理解的概念了。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值