Prolog 与 WordNet (1)


本文翻译的原作,是 Sarah Witzig 写的 《 Accessing WordNet from Prolog 》。

用 Prolog 操作 WordNet

WordNet 是个语义网络系统,开发者是普林斯顿大学。本文详细介绍 Prolog 版本的 WordNet 数据库,和接口谓词。

WordNet是使用更为方便的词典。打出想要的词句,便可得到相应的全部信息,不必按字母排列顺序费劲巴拉地去找。

WordNet还可作为各种应用程序的输入数据。它有个Prolog数据库。本文是其说明文档,也介绍了对数据库的几点优化。

1、基本概念

WordNet 的建造基础,是同义词的集合,简称synset。同一synset中的词汇,有同一个标示符。由于一个词可能多义,它也会属于其他synset,在Prolog数据库里形成多个词条、多个标示符。

上述基本信息,Prolog 用子句作出定义,并保存在文件 wn_s.pl。

一个子句,包含一个词及其标示符和附加信息。

名为 wn_xxx.pl 的文件还有15个。这里 xxx 表示 WordNet 词汇的不同关系。例如,wn_s.pl 是 WordNet_synset 的意思。

由 xxx 表示的关系,也有语义和词汇上的含义。词汇间的关系,由词汇单元间的联系描述。分组形成集合本身就是词汇关系。

语义关系表示词汇含义之间的关联。例如,上位关系是种语义关系,它说明处于高级地位或者属于高等类别。

2、各种 Prolog 文件

(1) wn_s.pl

wn_s.pl 是主要文件,它存储 WordNet 语料库的 synet 信息。

每个词由有 6 个参数的谓词 s 表示:

s(synset_ID,w_num,‘word’,ss_type,sense_number,tag_count).

第1个参数synset_ID是9位数字,指出该词属于的synset。如上所说,属于同一synset的词汇是同义词。

它的编码是根据synset的句法范畴,从9位数的第1位来看:

1 :名词;

2 :动词;

3 :形容词;

4 :副词。

9位数的其余8位,标示特定的synset。

第2个参数w_num是该词在synset中的位置,值是从1开始的连续数列。例如,编号为100041682的synset知识库看起来是这样的:

s(100041682,1,‘close_call’,n,1,0).
s(100041682,2,‘close_shave’,n,1,0).
s(100041682,3,‘squeak’,n,2,0).
s(100041682,4,‘squeaker’,n,2,0).
s(100041682,5,‘narrow_escape’,n,1,1).

第3个参数是处于单括号中间的词汇本身,如‘close_call’。

第4个参数ss_type表示synset的类型。类型限于名词、动词、形容词、副词。不包括代词、连词、介词、感叹词。

名词、动词、副词,分别用 n、v、r 表示;

形容词分为单词和 adjective satellites 2种。如果一个词属于 head synset,它也是形容词。

(2)wn_g.pl

它是个注解文件,对每个synset提供词汇的定义、解释和例句。它的谓词是:

g(synset_ID,‘(gloss)’).

第1个参数是synset的标示符,第2个参数是由圆括号和单引号包围起的注解。

例如,标示符为100031541的synset有2个词 walking 和 sledding。相应的子句g()则给出这2个词的定义。

g(100031541, ‘(advancing toward a goal; ‘‘persuading him was easy going’’;
‘‘the proposal faces tough sledding’’)’).

(3)wn_hyp.pl

hyp 是 hypernym 的缩写,意思是“上位词”。一个词的上位词,是指含义更为宽泛的词。仅动词、名词才有上位词。例如,“狗”的上位词是“哺乳动物”和“动物”。上下位的关系存在于2个synset之间,属于语义关系。

在 wn_hyp.pl 文件中,谓词 hyp(synset_ID_1,synset_ID_2) 表示上下位关系。

在 2 个参数中,synset_ID_2 代表的同义词集合,是 synset_ID_1 的上位。

例如,单词 dog 的 synset 标示符是 101752990。在文件 wn_hyp.pl 中,可查到 hyp(101752990, 101752283),集合101752283中的词都是dog的上位词,例如 canine (犬科的)。记住,一个词的上位词的上位词,也是该词的上位词。可以据此找到上位关系链。

在Working with WordNet一节中,会介绍谓词 find_hyp/3 和 find_hyp_chains/2,实验上位关系。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值