·
关于WordNet的不成熟的想法可以追溯到20多年前,
·
这一工程最初的前提之一是"可分离性假设"(
hypothesis),
· 另一个前提是"模式假设"(patterning
hypothesis):
·
第三个前提就是所谓的"广泛性假设"(
hypothesis):
·
建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析
lexical
semantics)的方法(也可译为义素分析法)。
N. Johnson-Laird合作的《Language and
Perception》
·
到1985年,许多认知心理学家和计算语言学家开始以"网"
table is a kind of
furniture),即"Is-A-KIND-OF"
lexical semantics),而且后者有可能替代前者。
·
在WordNet的早期阶段,
·
在1978年的时候,Miller描述了一种"自动化词典"(
dictionary)的想法。
Research
Center)的支持,Miller得以一直保持着他的想法,
PC机上做出了45个名词的小型语义网,他把这个小网叫做"
net"。
Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler,
以及Stephen
Hanson都鼓励他继续下去,并在技术上给予许多实际指导。
·
Lesk邀请Miller参加了1985年11月在加拿大沃太卢
我们可以使用同义词集合(synset)来代表词汇概念,
·
不过,
A Dictionary
Browser。(WordNet:一个词典浏览器)。在这里,
·
也就是在WordNet开始成形的时候,
for Cognitive Studies)。Richard
Cullingford从1983年到1985年在普林斯顿访问
Herman,加上Miller说服Provost Neil
Rudenstine提供了一台微型计算机。
Chipman跟他们签合同来开发WordNet。
Research
Institute)的一个合同,
S.McDonnell基金向普林斯顿慷慨解囊,
BienKowski(Cullingford的研究生)
·
用来创建WordNet的最重要的程序是所谓的Grinder(
Teibel在1987年用C语言重写了这个程序。
Romero在1989年又重写了一次。Randee
Tengi从1991年开始负责管理该程序的所有这些版本。
· WordNet中的词来自不同的地方。Brown语料库、
Urdang的同义反义小词典(1978)、
Chapmand的第4版罗杰斯同义词词林(1977)等。
Chang的一个词表,
Grishman和他在纽约大学的同事的一个词表,
·
随着词表长度的增加,组织工作的压力开始增加。
· 1987年春,Philip N.
Johnson-
· 1987年夏,Christiane
Fellbaum加入到研究队伍中来,
· 只有Kitty Miller负责的描写性形容词(descriptive
adjective),从一开始就一直保持是一个大类,
· WordNet从一个简单的"词典浏览器"(
browser)发展成一个自足的词汇数据库(self-
lexical
database),主要的进步是从1989年年初开始的。
Filter"(词过滤器)。
Beckwith和Miceael
Colon写了一个程序,叫做Morphy,
·
上述工作导致另一个重要的进展,
Leacock(1991年11月加入)和Brian
Gustafson开发了一个界面--
ConText,可以对文本进行预处理(实例化、词汇化、
Landes负责把一整套的标注工具汇编到一起(包含一组标记)
· WordNet的另一个重要变化是1989年春发生的,
Romero修改了Grinder程序,
13688个注释(30%);到1992年1月,
·
WordNet的研究人员一直把WordNet视作一个试验,
Tengi监督了WordNet一系列版本的发行。
1.0版是1991年7月公布的;1.
· 对WordNet提供过资金支持的包括:海军研究室(
of Naval Research),高级研究计划署(Advanced Research
Projects Agency),James S.
McDonnell基金,以及最近的语言学数据协作会(
Data Consortium)。
二 WordNet导言
·
对于WordNet来说,10年后来清点清点得失似乎是合适的。
· "WordNet: An Electronic Lexical
Database"一书分三部分,16章。
(一)计算机与词库(computers and lexicon)
·
一个人即使不接受把人脑比作计算机的隐喻,也一定同意,
·
越来越多的人认识到,一个大的词库对自然语言理解,
·
对大规模机器可读词典的需求同时也带来许多基础问题。
(二)构造词库数据库(constructing the lexical database)
· 构建词典的两种基本方式:自动获取 / 手工编制。
手工构建词典的优点之一是便于创建更为丰富的词条信息;
(三)WordNet的内容
· WordNet的描述对象包含compound(复合词)、
verb(短语
动词)、collocation(搭配词)、idiomatic
phrase(成语)、word(单词),
·
WordNet并不把词语分解成更小的有意义的单位(
analyses的方法);
person,这样的语言成分不能被作为单个词来加以解释。
·
人们经常区分词语知识和世界知识。前者体现在词典中,
(四)WordNet的设计(the design of WordNet)
·
一般的词典都是按照单词拼写的正字法原则进行组织的。
·
第一个以意义作为组织原则的词典是罗杰斯同义词词林(
Thesaurus)。
(五)作为同义词词林的WordNet (WordNet as a thesaurus)
·
WordNet跟同义词词林相似的地方是:它也是以同义词集合(
·
但WordNet不仅仅是用同义词集合的方式罗列概念。
继承关系等。
(六)作为一般词典的WordNet (WordNet as a dictionary)
·
WordNet跟传统的词典相似的地方是它给出了同义词集合的定
(七)WordNet中的关系 (relations in WordNet)
·
不同句法词类中的语义关系类型也不同,
(八)网球问题(the tennis problem)
·
WordNet是基于同义性和反义(对义)
Chaffin在一封私人信笺中,曾把这类问题称为"
problem"(网球问题),指的就是如何把racquet、
game(场地比赛);或者把physician(内科医生)
chain)的应用方法。"词汇链"
tree)来推导出话题信息。
(九)新的观点,改进,应用 (new perspectives,
enhancements, and applications)
·
许多WordNet的用户都对WordNet中缺乏跟语义处理的
(十)词语和它的上下文 (words and their contexts)
·
为了提供词语的语境信息,普林斯顿(Princeton)
concordance)--见《WordNet》一书第8章。
complete text of a novella)。
(十一)意义排歧 (sense disambiguation)
·
尽管我们很清楚,在确定的上下文中,
·
Leacock和Chodorow(见《WordNet》
(十二)信息检索 (information retrieval)
·
意义排歧对许多应用来说都是关键因素,
(十三)语义关系与文本连贯性 (semantic relations and
textual coherence)
· Hirst 和
St-Onge(见《WordNet》第13章)
chain)概念作为评估连贯性的一种方式。Hirst和St-
·
Al-Halimi和Kazman也对信息存贮,索引,
tree)--这是对"词汇链"的一个修正。
·
Hirst和St-Onge指出,
stew than steak(焖肉比牛排多),其中"more ...
than"是一个格式,用来连接两个语义上相关的词语。
person"(好人,圣人)
holy man, holy person, angel},{plaster
saint},
shooter, straight arrow}(正人君子)。
(十四)知识工程 (knowledge engineering)
·
WordNet的诸多应用中,最具雄心壮志的也许是知识工程(
·
Harabagiu和Moldovan(见《WordNet》
三 WordNet中的名词
* 在WordNet 1.5版中包含了差不多80000名词 --
60000词汇化的概念;其中许多都是collocation(
*
WordNet跟其他传统词典的差别,
*
传统的词典包括:拼写、发音、屈折变化形式、词源、派生形式、
*
WordNet不包括发音、派生形态、词源信息、用法说明、
*
WordNet中的基础语义关系是synonymy(同义关系)
block)。Ravin(1992)
*
WordNet中的同义概念并不是指在任何语境中都具有可替换性
* {shot, pellet} 跟 {shot, injection}
之间没有同义关联,尽管两个synset中都有shot。
*
大多数同义词集合(synset)有说明性的注释(
gloss)相伴。这跟传统的词典情况类似。
word),它就会包含多个解释,
1 词汇层级(lexical hierarchy)
{robin, redbreast} @ -> {animal, animate_being} @-> { organism,
life_form, living_thing},
/* @-> 可以读作"is a"或"is a kind of"。 */
/*
跟@->相对的符号是"~->",可以读作"subsume"
*/
*
一个名词通常只有一个直接上位词,
2 名词的25个基本类别为:
{act,activity}
{food}
{possession}
{animal,fauna}
动作行为
食物
所有物
动物
{group,grouping}
{process}
{artifact}
{location}
团体
过程
人工物
处所
{quantity,amout}
{attribute}
{motivation,motive}
{relation}
数量
属性
动机
关系
{body}
{natural_object}
{shape}
{cognition,knowledge}
身体
自然物
外形
认知,知识
{natural_phenomenon}
{state}
{communication}
{person,human_being}
自然现象
状态
通信
人类
{substance}
{event,happening}
{plant,flora}
{time}
物质
事件
植物
时间
{feeling,emotion}
情感
* 这25类也可进一步概括为11个基本类
*
由25个语义类形成的有关名词的25个元文件在语义层次上一般都
shetland pony @-> pony @-> horse @-> equid @-> odd-toed ungulate @->
placental mammal @-> mammal @-> vertebrate @-> chordate @-> animal @->
organism @-> entity
(共12层,其中6个层次是专业词汇,而非日常用词)
3 一些心理学假设(some psycholinguistic assumptions)
*
尽管名词层级的一般结构是由上下位关系(hyponymy/
vertebrate),有喙(beak),翅膀(wings)
eggs),等等。为了达到上述目的,
(1)属性(attributes):
是知更鸟属(redbreasted),恒温脊椎动物,
(2)部件(Parts):beak, feathers, wings
(3)功能(functions): sings, flies, lays eggs
尽管不同的区别特征应该被分别对待(
如果同义词集合{ A }的所有特征被包含在同义词集合 {
B }的特征集中,而不是相反,那么,{ B } 是 { A }
的下位概念(hyponym)。
*
如果上下位关系依靠特征来定义,那么特征就成为非常重要的概念。
*
尽管大多数词汇学家和计算机科学家认为词汇层级是表示名词意义(
meaning)的一种自然的方式,
of feature)之间存在包含关系(inclusion
relation)的经验证据时,上述问题就出现了。
* 1969年,Collins 和 Quillian 报告说,人们证实 句子 " A
robin is a bird "所需要的时间,比证实句子 " A robin is
an animal " 所需要的时间 短。
于是他们主张,上述观察提供了心理学证据,
:
在词汇层级上距离越远,就需要更多的时间来思考。
* 1981年,Smith 和
Medin非常谨慎地提出了反面意见。他们发现,感知" a
chicken is a bird "所需的时间比感知 " a robin is a bird
"所需的时间长,尽管 chicken 和 robin
跟bird的分类关系是一样的。这个差异不是 robin
出现的频率比 chicken 高造成的。而是
作为鸟类的成员,robin比chicken更典型。
*
在1980年代中期,对词汇层级的经典解释的攻击如此有诱惑力,
* 例如,句子" A pistol is more dangerous than a rifle
"(手枪比步枪更危险)显示的意义是可以理解的。而"
A pistol is more dangerous than a gun "
(手枪比枪更危险)和" A gun is more dangerous than a pistol
"就都不好理解(Bever and Rosenbaum
1970)。很显然,语言学上,
* 再看一个例子," I gave him a good novel, but the book bored
him "容易理解,但" I gave him a good novel, but the catsup
bored him "就让人费解。
因为词汇知识告诉我们,novel是book(有上下位关系),
*
再一个例子,
beverage
(饮料)的任何一个下位词。
*
由此,
*
WordNet的组织方式是提供语义关系的指针,
4 WordNet中不包含的东西(some things not in WordNet)
* WordNet中不包含这样的描述
:企鹅不是会飞的鸟。蜘蛛不是昆虫。......等。
即 不包含"is not a (kind of)"这样的关系。
* @->实际代表了不止一种语义关系,至少包括"is a kind
of"和"is used as a kind of"两种关系。{chicken} @-> {bird}
是前者;{chicken} @->
{food}是后者。遗憾的是,
5
整体部分关系(meronymy)包括三种情况:(
A是B的组成部分; beak / wing -> bird
A是B的成员; tree -> forest
A是B的构成材料。 aluminum -> plane
*
在WordNet中,整体部分关系主要是在noun.body(
noun.artifact(人工物),noun.
*
有时候,整体部分关系跟上下位关系会出现一些纠缠的现象。比如,
* 另一个重要的值得说明的问题是,"is a part
of"通常用来测试整体部分关系,但这种测试方式并不总是可靠。
Chaffin, Hermann(1987)举的例子更极端,我们可以说,"
branch is a part of the tree" 以及 " the tree is a part of the
forest ",但不能因此导出,"the branch is a part of the
forest ",因为 "branch / tree "之间的关系跟 " tree /
forest "之间的关系不同。
6 Antonymy(反义关系)
*
两个词构成反义关系的最强烈的心理学指示是,
*
上述反义关系通常出现在所谓的降格形容词性名词(
noun)之间。比如名词"happiness"和"
deadjectival noun都是{attribute}(属性)的下位概念。
*
语义相反不是名词之间的基本组织关系,但这种关系确实存在,
[ { man } !-> { woman } ] 和 [ { woman } ! -> { man }
]都在源文件中存在。但这种反义关系不能被 { man } 和
{ woman }
的下位概念继承。也许关于名词之间反义关系最有趣的是,
7 属性和修饰语(attribute and modification)
* 属性的值由形容词表达。例如,"size"和"color"是
"robin"(知更鸟)的两个属性。
SIZE (robin) = small, COLOR (robin) = red
*
在WordNet中,{robin}和{red}
*
friendliness(友好性)是dog的一个属性,
a dog can be friendly or unfriendly ",但 " stingy dog "或"
shallow dog "就只能解释为比喻用法。因为 generosity 和
depth 都不是 dog 的正常属性。
*
形容词修饰成分在WordNet中扮演的主要角色可能是在搭配词
easy chair , electric chair, straight chair, high
chair等,都比基本概念层级的名词 chair
更详细地刻画了 chair。
8 多义名词的相似意义/近义 similar meanings of polysemous
nouns
* Philip N.
Johnson-Larid提出,
* 不过也有不同于上面情况的例外,比如 coral
(珊瑚虫)是 animal 的下位概念之一。coral最后会形成
ocean reef (珊瑚); 同时, coral 还有一个意思也是
food 的下位概念,是指 lobster roe
(龙虾卵)。显然,这里的animal 和
food的下位概念之间的关系不是 动物 和
它的可食的肉之间的关系。因此,
*
近义是最近才加入到WordNet中的关系。
* WordNet中区分了三种不同的近义情况:
(1) cousins (堂兄弟节点) 比如上面 例子 fish
的两个意思(概念)之间就是。
(2) sisters (姊妹节点) 比如 flounder
可以指不同的扁平鱼(比目鱼),在两种不同的指称意义下,
flatfish )。这种情况下,flounder的两个意义就是 sisters
近义。
(3) twins (孪生节点)
这是指两个同义词集合(synset)共享同样的词形式(
form),
musical group
(二人音乐小组,或二重唱组合),另一个意思是
musical composition
(音乐作品,二重唱音乐作品)。
duo, duet, duette }。
9 小 结
* 在有关WordNet的更早期描述(Beckwith et al. 1991; Miller
et.al,
1990)中,
*
不过,WordNet中有关名词概念的层级描述,
*
计算语言学家当然不这么看,只要有助于处理自然语言,
*
WordNet中的名词库的开发因此更多的是受到计算语言学方面
附:一个名词语义网络的示例
四 WordNet中的修饰语
所有的语言都提供了修饰词语意义的方式,
形容词的唯一功能是修饰名词(比如large
chair中的large; comfortable
chair中的comfortable)。此外,
chair, barber
chair等,或者动词的现在分词,过去分词,creaking chair,
overstuffed chair等,介词词组也可以修饰名词,如chair by
the window, 从句也可修饰名词,如 the chair that you bought
at the auction。
WordNet
1.5包含了16428个形容词同义词集合,包括许多名词、
cooking, home office 中的home)。
WordNet把形容词区分为两类:描写性形容词(
adjectives)和关系性形容词(relational
adjectives)。前者如big、 beautiful、 interesting、 possible、
married、
......;后者因其跟名词的关系而得名,
engineer中的electrical实际跟名词elect
这两类形容词应该能代表英语形容词中的绝大多数,
(一)描写性形容词
1 反义(antonymy)
反义关系是描写性形容词之间的基本语义关系,心理学上的证据是,
如果认识到形容词是表达属性值的一种主要手段,
上述解释引发出两个相关问题:
(1)当两个形容词意义非常相近时,为什么它们的反义词不同?
(2)反义关系如此重要,
上面第一个问题造成的影响是,
weighty, ponderous}和{light, weightless,
airy}之间如果用特定箭头表示反义关系似乎就不大合适。
heavy/weightless,
ponderous/
于是有了下面这样的表示间接反义的方式:
反义关系 antonymy ,用 !-> 符号表示;
近义关系 similarity, 用 &-> 符号表示;
由此,就有在下图中显示的 moist &-> wet !-> dry
这样的语义关系。moist不直接跟dry构成反义,
图1: 两极形容词结构
2 Gradation(等级/序关系)
大多数有关反义关系的讨论涉及到contrary
(相对反义)和 contradictory
(绝对反义)两种反义关系的区分,前者是可分程度的逐级变化,
下面是一个形容词序关系的一个例子
一个有等级的形容词可以被定义为能被程度副词very,
decidedly, intensely, rather, quite, somewhat, pretty,
extermely等等修饰的形容词(Cliff,
1959)。大多数形容词等级是通过形态变化规则(比较级,
在形容词的synset之间用一种特定指示符号表示等级(序)
3 标记性(markedness)
一些形容词表现出明显的倾向性。如汉语中的"高/矮",其中"
-- *这座楼有30米矮"看出。
4 多义性,选择优先(Polysemy and Selectional Preferences)
Justeson和Katz (1993)发现,多义形容词(比如old, right,
short)的不同意思跟它同现的特定名词有关。例如,
young"时,它经常修饰"man",而如果"old"
new"时,它经常修饰像"house"之类的词。因此,
(1993)则对此持另一种观点。他们认为形容词是单义的,
(二) Reference-Modifying Adjectives
Bolinger(1967)首次指出reference-
referent-modifying 形容词之间的区别。他指出,在"the
former
president"(前总统)这样的短语中,
old
friend"中,old可以解释为reference-
/ new ; 作为referent-modifying意义时,
reference-modifying形容词的功能很像副词,
teacher"意思是"he was formerly my teacher";"the alleged
killer"意思是"she is allegedly a
killer"。这类形容词只能作为定语出现修饰名词,
friend is
old.",其中的old就已经不再是reference-
(三) Color Adjectives
英语中的颜色形容词同时也可以作为名词使用,但它们不是名形词,
只有一个颜色属性LIGHTNESS(亮度)的两个值是极性的:
(四) 关系性形容词(relational adjectives)
关系性形容词是形容词中另一个大的开放类。
这种形容词只能出现在定语位置(attributive
position)上。意义上跟一个名词非常相关。例如
fraternal twins (双卵双胞胎)/ fraternal 跟
brother意义相关;dental hygiene(牙齿卫生) / dental 跟
tooth相关。
有的名词既能被relational
adjective修饰(作谓语受限),
instrument和musical
child。前者是描写性的,指用在音乐方面的器具/乐器(an
instrument used in
music);后者是关系性的,指有音乐天赋的小孩。类似地,"
law"跟"criminal
behavior"不同。
关系性形容词不能跟描写性形容词一道修饰中心名词,
and life-threatening disease"和"musical but not extraordinary
talent"都是听起来比较怪的说法。(life-
nervous
disease就是可以接受的说法,
atom and nuclear bombs ; the Korean and Vietnam war。
关系性形容词大多数是来自希腊语或拉丁语,很少来自Anglo-
nasal passage / * rhinal passage ; rhinal surgery / * nasal surgery
相反地,一个关系性形容词有时候指向几个名词。比如:
有两个意思跟两个名词一致:chemical (例子: chemical
fertilizer / 化学肥料)和 chemistry (例子: chemical
engineer / 化学工程师)
关系性形容词跟描写性形容词不一样的地方在于,
criminal 和 musical 相对应的属性名词 criminality 和
musicality ),因而也不是作为属性值的形容词。
关系性形容词在概念上跟它相关的名词基本一样,只是词形式不同。
关系性形容词不指向它修饰的中心名词的属性(property)
the nervous person 可以变换结构为 the person's nervousness ,
但 nervous的关系性用法 the nervous disorder
没有平行的变换形式。
关系性形容词像名词,而不是描写性形容词,前者没有等级序关系,
* the extremely atomic bomb ; * the very baseball game ),
而描写性形容词可以受程度副词修饰。
关系性形容词没有直接反义词,尽管它们常常可以跟
non-
连用。不过这样的形式不是表示一个属性取相反的属性值,
else)的意思。这类形容词有一种分类功能。在不少情况下,
(细胞外的) vs. intracellular
(细胞内的)。更常见的情况是,
lawyer vs. criminal lawyer ; mechanical engineering vs. electrical
engineering。
在WordNet中。
astral, sidereal, noun.object: star},表示关系性形容词stellar,
astral, sidereal跟名词star相关。
不少形容词出现的句法位置是比较固定的,对此,
Bartning (1980)
观察到,如果形容词修饰的中心名词是由动词派生出来的,
economic restructuring 可以转换为 the restructuring was economic
; 而 economic slump 则不能转换为 * the slump is economic。
Bartning
(1980)还进一步观察到,
presidential election ( president 是 elect 的结果/对象
),二者之间有明显的关系,所以不能将 presidential
变换到谓语位置,不说 * the election is presidential 。而在
manual labor (手工劳动)这个短语中,它的意思是 labor
with/by hand , manual 跟
labor之间没有显性的关系,因此可以说 this labor is
manual。
形容词的反义是对词而言的,不是对概念而言的。比如large/
五 WordNet中的动词
Collins英语词典中有43636个不同的名词和14190
(一) 动词在WordNet中的组织方式
1 将词库变成按语义组织的域 (breaking up the lexicon into
semantic domains)
为了将英语动词词库组织成一个关系网络,
domain)。
对动词进行分类,第一刀可能是分成event和state两类,
verbs of motion
verbs of perception
verbs of contact
verbs of communication
verbs of competition
verbs of change
verbs of cognition
verbs of consumption
verbs of creation
verbs of emotion
verbs of perception
verbs of possession
verbs of bodily care and functions
verbs referring to social behavior and interactions
(詹按:这里原文似有错误,出现了两个perception,
上面这个分类,部分基于Miller 和 Johnson-Laird
1976年的讨论,部分基于这种分类本身的合理性,
上述这15个类是适合WordNet中所有动词的分类需求的。
1.5版大约包含11500个动词同义词集合。但是,必须强调,
wonder, speculate, confirm, judge等等。类似地,像
whistle这样的动词,在"The bullet whistled past
him"中的whistle,既可归入sound
emission类(发出声音),也可以归入运动类动词(
和 Levin
1991的讨论。如果这样的动词被判定为是单义的,
domain)。不过,一个动词归入那个具体的语义类,
2 动词的第一级分类(起始类 unique begineer):
Lyons(1977)提出一个分类集为:act, move, get, become, be,
make。
Pulman(1983)的分类只有be和do,
verb)。Jackendoff(1983)
首先,这些用来代表基本分类的动词几乎都是多义的。
"do my hair"或"do my room in
blue"中的"do"已经是特定含义的动词了。其次,
Fellbaum, 和Jenei 1994)。
采用Lyons(1977)和Pulman(1983)
在一个单独的语义框架内,
verbs)有两个同形的顶级结点(top
node):move1和move2,
transfer}, {take, receive} 和 {have,
hold}。在很大程度上,
donate/捐赠, inherit/继承, usurp/篡夺, own/拥有, stock/进货
"等。
comb/梳, shampoo/洗发, make up/化妆, ache/疼痛,
atrophy/萎缩。社会交互类动词(social
interaction)也包含许多不同的语义子类,
depose/免职),工作(hire/雇佣, subcontract/转包,
strike/罢工),以及人际关系类动词(court/
marry/婚嫁),等等。
3 动词的同义词集合(synset)
(1) 同义和近义(synonyms and near-synonyms):
如果采用可替代性作为判断同义的标准,
(2)成语和比喻义(Idioms and Metaphors):
像"kick the bucket"和"keep an eye
on"这样的固定成语包含在适当的同义词集合(synset)
down所在的同义词集合中。
down),而且用法上也有同样的句法特征(
down都是非宾格动词),并且一般可以用被动形式加以解释(
task fell to me中的非宾格动词fall就可以解释为be
assigned;The building went up中的go也可解释为be
erected,等等)
(二) 动词之间存在词汇和语义关系的证据(Evidence
for lexical and semantic relations among verbs)
/*
在WordNet之前,
1 动词语义存贮的心理语言学证据:
尽管有相当多的研究工作研究说话人对名词和形容词的语义记忆,
除词联想数据外,
remember-forget, believe-doubt, ask - tell, preced - follow, fill -
empty, love - hate, heard - said, taken -
given。等等。这些动词对跟那些在刺激-
& Jenkins 1964, Chaffin, Fellbaum, and Jenei
1994)。在后一种心理实验中,
2 典型性和范畴成员关系判定的证据:
来自典型性和成员隶属程度判断的数据对词语和概念的研究也是一个
1983)。
3 词典释义作为发现语义关系的一种启发式方法:
传统的词典在发现词语和概念之间联系方面提供了丰富的资源。
move or walk in a sliding, dragging manner without lifting the
feet"; shout被定义为,"to utter in a loud
voice."这种类型的定义显示,
to sustain, maintain, or
keep"。(这类似于词典在定义形容词时用"not
X"这样的形式)。词典在定义许多动词时还采用"x
while
y-ing"这样的形式。这种定义有助于启示继承关系。
become or make
X"的形式定义的(例如melt/使融化,被定义为,"to
become or make
liquid")。在WordNet中,
(三) 动词和同义词集合中的词汇与语义关系(Lexical
and semantic relations among verbs and synsets)
1 继承/蕴涵(entailment):
有些动词之间存在蕴涵关系,如snore(打鼾)
is snoring"蕴涵了"He is
sleeping"。
人们接受上述事实,就可以认为这样的动词对是部分-整体关系的,
是 ride的一部分;snoring 和
dreaming(做梦)是sleeping的一部分等。
(1) 下位关系(hyponymy among verbs):
动词之间不同于名词之间的上下位关系,
X is a Y,不大适合用来测试动词。Ambling is walking,To
amble is kind of to walk或者Mumbling is talking都不被接受。
Fellbaum和Miller(1990)
V1 is to V2 in some particular manner.
这里Manner可以解释为多种语义维度,
war, tourney, joust, duel ,
feud等等,
(2) 下位关系和蕴涵关系(troponymy and entailment):
下位关系是一种特别的蕴涵关系。
(3) 动词的分类树关系(verb taxonomies):
动词层级分类体系通过下位关系实现,倾向于浅层分类。
Communicate - talk - [ babble / - mumble / - slur / - murmur / - bark ]
- write
在动词分类层级体系中,动词下降一层,
instument"(弦乐器),同时也是一种"
instrument"(打击乐器)。就动词的例子而言,
stangle, shoot,
等等),既可以是kill的方式,也可以是execute(
-- 即communicator(发信者), message(信息),
recipient(接收者)等。同样地,
2 动词中的语义相反关系(Semantic opposition among
verbs):
动词词库的关系指针OPPOSITION实际上代表了复杂的若干
converse是一种反义关系,
buy/sell; lend/borrow;
teach/learn等等。
大多数反义动词是状态动词。
exclude/include; differ/equal; wake/sleep等等。
此外反义关系也经常出现在变化动词中,如lengthen/
strengthen/weaken; prettify/uglify等等。
跟形容词中的反义关系类似,动词中的反义关系也存在标记问题(
许多语义上相反的动词在分类层级上是姐妹关系(co-
另有一些语义相反的动词对,共同蕴涵一个动词,
3 致使语义关系(The cause relation)
这种关系连带两个动词概念,一个是因(如give),
- see(展现 - 看见)和 fell - fall (击倒 - 倒)等。
此外,WordNet包含从致使(causative)
develop, break,
shrink等。
glass door broke -- The storm/ The children broke the glass
door)。少数动词只跟无生致使动因相关,如The wooden
deck molded -- All that rain molded the wooden deck。比较:The
house sitter molded the wooden
deck是不合法的句子。致使动词也系统地出现在运动动词中,
roll, blow等等。(She blew a soap bubble in his face -- The soap
bubble blew in his
face)。Carter(1976)提到,
下图显示了WordNet中全部4种不同的动词蕴涵关系。
(四) 多义性 (Polysemy):
据Fellbaum(1990),
be, run, make, set, go,
take等)的意义通常依赖于跟它们共现的名词。
1 多义性与下位关系:自我上下位关系 (Polysemy and
Troponymy: Autohyponymy)
如behave既可以表示"conduct oneself",又可表达"conduct
oneself
well",后者(behave2)是前者(behave1)
2 多义性与蕴涵:自我蕴涵关系(Polysemy and Entailment)
韦氏大词典第三版列有drive的两个义项如下:
to operate and steer a vehicle;
to have oneself carried in a vehicle
请看例句:The president drove on to the Capital.
在这个例句中,
再如:She sewed her dress 是一个歧义句。
sew有两个意思,一是fasten or join(fabric) by
stitching(靠缝合使织品更紧凑或连到一起);
or create by
sewing(通过缝制生产衣服)。后一种意思蕴涵前一种意思。
3 多义词与相反关系:自我反义关系 (Polysemy and
Opposition: Autoantonymy)
例1. These manufacters now bone their shirt
collars.(在领子中加领衬/硬领)
例2. She boned the turkey. (把火鸡的骨头抽去 - debone)
例3. The violinist strung his instrument. (给乐器加弦)
例4. Could you string these beans, please?
(用线把豆子串起来)
Horn(1988)指出,在例1和例3中,动词选择"
例5. * We strung the beads and the beans.
例6. * She seeded the clouds and the grapes.
例5和例6之所以不合法,是因为在一个句子中,
(五) 测试WordNet的语义模式的心理合理性(Testing the
psychological validity of the wordnet model)
Chaffin,
Fellbaum,和Jenei(1994)完成了几项试验,
reality)。
首先,Chaffin,
Fellbaum和Jenei想看看未经语言学训练的人是否能确
proper inclusion, backward presupposition,
cause)的三种不同任务。在一个类比任务的测试中,
pair)--作为种子对,
在第二个分类试验(sorting
experiment)中,
最后一个试验的对象是有40名被试的第三组人,
sentence),来详细说明动词对之间的关系。结果显示,
inclusion关系和presupposition关系似乎
(六) 动词词典(语义建模)的其他模式 (alternative
models of the verb lexicon)
1 语义场理论 (semantic field)
从语义场理论的视角来看词典的结构,
2 脚本和框架分析(Schemata and Frame Analysis)
一些语言学家和词典学家认为纯粹的关系分析对描述说话人的动词词
1977)。
Fillmore和Atkins(1972)
transaction frame),其中包括{money, buyer, seller,
goods}以及动词{buy, sell, charge, cost, etc.}。
尽管WordNet并没有把动词跟特定的名词关联起来,
role),也没有跟像buyer这样的语义范畴联系起来。
因此,WordNet可以在这方面有所加强,
relation)中的动词对,如buy和sell,
3 义素分析(compositional analyses)
尽管通过组成成分的意义来建构整体的意义这一处理方式跟从关系角
4 词汇从属理论(lexical subordination)
Levin 和
Rapoport(1988)指出,
例1 brush the tangles out -- remove the tangles by brushing
例2 brush a hole in one's coat -- create a hole by brushing
例3 brush the coat clean -- cause to become clean by brushing
再比如:he nodded his assent (他点头表示同意)
在WordNet中,nod是一些基本动词的Troponym,
by
nodding"。它的上位词是gesture(体态语),
shrug, wink等。
(七) 语义关系和句法规律性(Semantic relations and
syntactic regularities)
对动词的语义和概念组成成分进行分析能够揭示出许多动词的句法属
1993)测试了大量的动词,语义上同类的英语动词,
1 有区别的子树(distinguishing subtrees)
同一层级的动词的句法属性一般就是对这类动词进行次分类的基础。
例如:weave(编织),
mold(铸模)这两个词都是creation
verb(创造类动词)。
交换句法位置):
例1 She wove a rug from the black sheep's wool.
(她用黑绵羊的毛织了一个毯子)
例2 She wove the black sheep's wool into a rug.
例3 They molded a head from the clay.
(他们用粘土塑了一个人头)
例4 They molded the clay into a head.
有一些动词,像fabricate(编造)和compose(
例5 The reporter fabricated a story out of the girl's account.
(那个记者根据那个女孩所说的编出了一个故事)
例6 * The reporter fabricated the girl's account into a stroy.
例7 She composed a quartet out of the old folk song.
(她根据这首老民歌创作了一个四重奏)
例8 * She composed the old folk song into a quartet.
在Fellbaum 和 Kegl
(1988)对这些动词的讨论中,他们指出,
WordNet注意到了上述区别,
from raw material"和"create
mentally"两类,尽管这两个概念在英语中并没有词汇化。
2 动词在树结构中的位置的句法意义(syntactic reflexes
of the verb's position within a tree structure)
从语义关系的角度观察动词同样也提供了理解动词句法性质的一条线
例9 Mary ate a bag of pretzels.
(玛丽吃了一袋椒盐脆饼干)
例10 Mary ate.
以往对这些动词的分析根据时态来进行解释。但是,
guzzle, gulp和
devour等(基本上都相当于汉语的"狼吞虎咽"),
graze(放牧,吃草等), nosh(吃点心),
snack(吃零食)等。Fellbaum和Kegl提议,
a meal"(吃饭)。它的下位词一部分来自名词,如dine,
breakfast, picnic, feast等。另外一部分是munch, nosh,
graze等。相比之下,及物的eat的意思是"ingest in some
manner"。这种意义下,
gulp, devour,等等。
3 中间形式制约 (Restrictions on Middle formation)
从语义分类树观察动词还能清楚地显示基于语义的特定的句法约束。
一个明显的结构是那些通常需要副词或副词短语出现才能站住的句子
例11 Her new novel sells * ( fast / like hotcakes )
* 她的新小说卖
她的新小说卖得很快
她的新小说很好卖
例12 This car drives * ( easily / like a dream )
* 这辆车开
这辆车很容易开
但是,有的情况下对副词出现与否就要求不高。比如:
例13 This vegetable microwaves (easily).
例14 This suitcase zips shut (in a flash). /*
这里shut时表示结果的形容词 */
对副词出现与否的限制要求可以用动词的语义层级来说明。
fry, broil, braise,
microwave等等。
button, zip,
snap等。这些动词都表达了以特定的方式来close。
例15 This vegetable cooks * ( quickly ).
例16 This suitcase closes * ( easily ).
在上面这两个句子中,副词都是必需的。因为其中的动词是"基础"
level)的动词,在人们的心理中,
相比之下,如果动词是下位动词,副词性修饰成分就不是必需的了。
意味着 "cook in a microwave oven"。 zip 意味着 "close with
a zipper "。
Ackerman和Goldberg
(1996)注意到下面的例子,
例17 * a killed man
例18 * a changed design
例19 * a told secret
相比之下,如果动词在语义层级树上处在更下位的位置,
例20 a murdered man (一个被谋杀了的人)
例21 an altered design (一个被更改了的设计)
例22 a divulged secret (一个被泄露的秘密)
Ackerman和Goldberg得出结论说,
一个形容词性的动词过去分词如果来自基础层级的动词,
附:
---------------------------
动词的基本语义类:
1. 身体动作动词(Verbs of Bodily Functions and Care);
275个同义词集合
2. 变化动词(Verbs of Change);约750个同义词集合
3. 通信动词(Verbs of Communication);
710个以上的同义词集合
4. 竞争动词(Competition Verbs);200个以上的同义词集合
5. 消费动词(Consumption Verbs);130个同义词集合
6. 接触动词(Contact Verbs);820个同义词集合
7. 认知心理动词(Cognition Verbs);
8. 创造动词(Creation Verbs);250个同义词集合
9. 运动动词(Motion Verbs); 500个同义词集合
10. 情感心理动词(Emotion or Psych Verbs);
11. 状态动词(Stative Verbs);约200个同义词集合
12. 感知动词(Perception Verbs);约200个同义词集合
13. 领属动词(Verbs of Possession);约300个同义词集合
14. 社会交互(Verbs of Social
Interaction);约400个同义词集合
15. 气象动词(Weather Verbs);约66个同义词集合
不同语义类的动词有非常不同的结构。
of creation, communication, competition, contact, motion, and
consumption)。
WordNet词库和搜索软件的设计与实施
Design and Implementation of the WordNet Lexical Database
Richard Beckwith, George A. Miller, Randee Tengi
(Doubtfire草译整理于2001年6月,仅供参考。
词典编纂者必须既关心词典的内容,也关心如何去呈现内容,
1915),至于电子词典,大概还是摸着石头过河的阶段吧。
WordNet将是这方面工作的一个先例。
人们对WordNet的第一个印象很可能是它是一个在线义类词典
thesaurus)。同义词集合(sets of
synonyms)确实是WordNet词库的基石,
gloss)加入到同义词集合(synonym
set)中时,
1998)。但实际上,WordNet包含的信息远不止此。
form)与同义词集合(synonym set,
即synset)之间关系的许多详细信息。
在WordNet的开发过程中,
WordNet系统自然地分成了四部分:(1)
DEXstation, NeXT,IBM PC及兼容机,Macintosh。
接下来我们将讨论WordNet的设计和实施的总的特点。"
Reference
Manual)是一组描述WordNet系统的细节的文件,
1 熟悉度指数(Index of Familiarity)
关于大脑词库的最著名的也是最重要的心理语言学事实之一是,
为将词语熟悉度的差异反映到WordNet中,
form)关联了一个熟悉度的句法标记指数。
-- 一些理论家可能会要求给每个关系附加上权重
--
但全部结果的精确信息并不容易得到。
使用频率通常被认为是熟悉度的最好体现。
--
使用频率通常被假定为跟熟悉度的差异相关,
因此这个结果对反映非常用词的频度是不够的。(
幸运的是,我们还有另外的办法来表示熟悉度。Zipf(
因此,WordNet不用词语的出现频度来指示熟悉度,
下面表1显示了熟悉度指数的用处。
Table 1 Hypernyms of bronco and their index
values(表1:bronco的上位词和义项指数)/*
詹按:
*/
如果要查bronco(野马)的上位词(
bronco @-> pony @-> horse @-> animal @-> organism @-> entity
这个缩短了的链更接近人们期望的答案。显然,
如果熟悉度指数可以指派到词的义项上,
necktie}意义使用,远远比作为{tie, tie
beam}更常用,但目前这两种意义下,
詹按:查wordnet 1.6版浏览器结果
2 词典编纂者的源文件(Lexicographers' Source Files)
WordNet的源文件是由词典学家编写的。
form)和词义(word
meaning)是这些文件中可见的两个基本构件。
WordNet将名词、动词、形容词、
每个源文件都包含了一个词类的synset的一个列表。
gloss),
描写性形容词组织成一些聚类(cluster),
pair of word forms)作为中心,叫做中心同义词集合(head
synset)。
Grinder软件工具将词典编纂者编写的源文件转换成Word
3 词形式(Word forms)
在WordNet中,
在词典编纂者编写的源文件中,一个词形式可能增添了额外的信息,
marker),补充在这样的形容词形式后,
4 关系指针(Relational Pointers)
关系指针代表了一个synset中的词形式跟另一个synset
Table 2 WordNet Relational Pointers(表2:WordNet的关系指针)
Noun
Verb
Adjective
Adverb
Antonym !
Antonym !
Antonym !
Antonym !
Hyponym ~
Troponym ~
Similar &
Derived from \
Hypernym @
Hypernym @
Relational Adj. \
Meronym #
Entailment *
Also See
Holonym %
Cause >
Attribute =
Attribute =
Also See
Meronymy关系可以通过在"meronym指针"
许多指针是相互对称的(reflexive),
Table 3 Reflexive Pointers(表3:相互对称指针)
Pointer
Reflect
Antonym
Antonym
Hyponym
Hypernym
Hypernym
Hyponym
Holonym
Meronym
Meronym
Holonym
Similar to
Similar to
Attribute
Attribute
词典编纂者可以选择两种方式中的一种来给出关系指针。
...
]),来定义词形式之间的词汇关系。
5 动词的句子框架(Verb Sentence Frames)
每个动词synset包含了一个动词框架的清单,
6 同义词集合的形式句法结构定义(Synset Syntax)
源文件中满足如下形式定义的字符串被当作是synset(不过,
[1] 每个synset以 { 开始;
[2] 每个synset以 } 结束;
[3]
每个synset中包含一个或多个词形式,之间以逗号分隔;
[4]
为表示语义关系,词形式后面可以跟上关系指针,具体形式是:
[5]
对动词synset来说,"框架"(frame)
[6]
为表示词汇关系,一个词形式后面可以跟上[4]或[5]
[ ... ]中。
[7]
为表示形容词聚类,聚类的每个部分(中心同义词集合,
7 档案系统(Archive System)
词典编纂者的源文件保存在一个档案管理系统中。
一个用于文本文件的多重修改管理工作的系统。
reserve(预留)
8 将源文件转换成WordNet词库的Grinder工具(
Utility)
Grinder是将词典源文件转换成数据库形式的工具。
9 实施(Implementation)
Grinder是多遍编译器(multi-pass
compiler),C语言编程。
第二遍编译过程中,
pointer)的情况,就搜索目标指针的synset。
随后的一遍编译遍历词形式表,指派一个多义词的义项号。
Grinder的最后一遍编译生成WordNet数据库。
10 内部表示(Internal Representation)
词汇数据的内部表示是一个相关链接表形式的网络。
table)。小写字母字符串作为关键字;
11 WordNet数据库(WordNet Database)
对每个句法类,有两个文件来代表WordNet数据库 --
索引文件(index.pos)和数据文件(data.pos) (这里
pos是part of speech的缩写,代表 noun, verb, adj 或 adv
)--
实际文件名可能由于计算机系统平台不同而有所差别。
索引和数据文件是相关的。在一个索引文件中,
尚书数据库结构的一个缺点是,尽管所有文件都是ASCII码的,
下面将简要描述索引文件和数据文件,
Reference Manual"中的wndb(5)页。
12 索引文件(Index Files)
索引文件中的词形式是小写的,
每个索引文件都以几行包含版权申明、版本号、
13 数据文件(Data Files)
数据文件中包含的信息对应着词典源文件中定义的synset,
每个数据文件都以几行包含版权申明、版本号、
每行的第一部分信息是偏移字节量(即synset的地址)。
关系指针由几段信息来表示。指针符号打头,
14 查询词汇信息(Retrieving Lexical Information)
为了让用户可以访问数据库中的信息,需要为用户提供一个界面。
WordNet的用户界面可以有很多形式。标准界面是一个X
Windows应用程序。
搜索过程也是跟搜索请求的具体类型无关的。
WordNet的用户界面和其它软件工具依赖一个函数库。
findtheinfo( )函数的输入变元是一个词形式(word
form),词类,和搜索类型;findtheinfo(
)调用一个低级函数在索引文件中寻找相应的入口,对每一个义项,
)函数完成的,但特定的函数不一定适合标准的层级搜索。
上述通用搜索和检索算法在实现WordNet的用户界面时是以几
see)关系。此外,调用findtheinfo(
)函数可以搜索多义项信息、动词句型框架信息、或名词同位信息(
搜索功能无法完成词形处理(morphological
operations),因此调用findtheinfo(
)函数的同时需要调用morphstr(
)函数来将搜索字串(单词)翻译成一个或多个基础形式(base
form)。
15 X Windows界面(X Windows Interface)
16 数据库搜索(Searching the Database)
17 选项(Options)
18 结果输出(Output)
19 词语形态处理(Morphy)
20 例外词表(Exception Lists)
WordNet中每个词类(副词除外)都包含一个例外词表。
21 单字词(Single Words)
22 搭配词(Collocations)
23 含连字符的词(Hyphenation)
24 进一步的工作(Future Work)
因为许多名词搭配词包含了介词,例如"line of
products"("产品路线、产品线")这个词,
of products",这个搜索串就成为"line of
product",而"line of
product"在WordNet词库中不存在。