WordMap

最新推荐文章于 2023-06-06 16:21:43 发布

metago

最新推荐文章于 2023-06-06 16:21:43 发布

阅读量3.8k

点赞数

分类专栏：搜索引擎(Search Engine) 文章标签： semantic 语言互联网 web

本文链接：https://blog.csdn.net/metago/article/details/1676390

版权

搜索引擎(Search Engine) 专栏收录该内容

7 篇文章

订阅专栏

WordMap介绍

----wuhui803@gmail.com

在解释这个概念之前，我们来分析一下一种现象。

众所周知，词语是最小的语义单位，想理解语言本身不能不研究词语，这也难怪现在的语言学研究都从分词开始。词语和词语之间也是有联系的，看到“刘翔”和“冠军”你会想到什么？那么“马云”和“雅虎”呢？无需置疑，词语之间是有关系的。人掌握这种关系是通过“听”和“看”，那么机器如何知道这种关系呢？

第一种解决方案估计会马上被推选出来：构建一个知识库。这儿的知识库强调的应该是董老师说的“关系”，虽然我不是很赞成这种观点，但是，在当前技术下，似乎没有更好的替代品。对于知识库的建立，我推崇的向来是本体(Ontology)。原因很简单，知识属于全人类，现在传播知识的最好途径是互联网，Ontology是Semantic Web的基础，如果我们有足够的Ontology，那么未来的互联网搜索技术强调的应该是语义理解和逻辑推理，而不是现在的模式匹配，从而，未来的信息获取方法将更快捷而准确。

第二种方案其实是一种无赖，因为我们现在还不能实现第一种方案。应该说统计模型在现代语言学中可谓是风光无限，从分词到分类无不充斥着经典的数数理论。利用统计模型，我们可以从语料中分析出任意两个词语之间的相关程度，这种相关程度是通过条件概率来表示的，WordMap就是其中的一种实现。

WordMap应该被人称呼过了，虽然我不确定此人想表达的意义和我所说的是否一致，但是，可以肯定的是他想表达的也是词语之间的关系吧。此处的WordMap表示的是词语之间的关系，主要信息元是词语之间共现的条件概率和位置关系，由此形成了一个有向图。

图1.WordMap片段

如上图1是一个WordMap片段，其表达的含义就是每个词语和一定数据的词语存在语义和位置上的关系，这种关系反映了人们的语言习惯。从某种角度上讲，这是一种粗糙的语义理解。那么下面我们来介绍一下WordMap中的关系都是怎么算的？

在一定的语料内，统计得到，同一个句子中，和词语A一起出现的词语有x1,x2,…,xn，每个词语一起出现的次数为t1,t2,…,tn，因此，对于A而言，词语xi(1<=i<=n)的相关性为。词语xi和A的相对位置关系分布为，A出现在xi前面的次数为f，出现在其后来的次数为b，用参数 (f,b>0，否则，关系更加明确J)来衡量位置关系，如果k大于阀值T，那么当f大于b是，则A应该出现在xi的前面；当b小于f时，则xi应该出现在A的前面。如果k小于阀值T，那么xi和A没有固定的位置关系。

上面介绍了WordMap的构建，那么WordMap有什么用呢？在回答这个问题之前，我们先回忆一下本文开头提到的一句话“词语是最小的意义单位”。利用最小语义单位之间的关系，我们对语言的处理应该是本质性的吧。目前，利用WordMap进行的项目有：文本主题抽取，词语聚类，相关词语推荐等。WordMap的本质在于通过语料中词语出现的情况来揭示词语之间的关系，并由此构建一张表征词语关系的有向图，从而能实现一定限度的语义理解。那么，构建WordMap需要哪些资源呢？资源很简单，就是一堆你关心领域的语料，这些语料能表达所研究领域的知识。看了这么多，相信你已经想尝试了吧，Come On!