在信息检索中,“相关性”是一个关键性的概念,但是信息检索研究长久以来一直是在缺乏一个准确的相关性定义的情况下进行的。对这一概念人们做了大量研究并提出了理论框架,但这些研究成果无法很好地被加以利用。本文简要回顾了近五十年来相关×××的概况,对研究现状进行了讨论,然后就如何将相关×××成果与系统开发相结合提出了初步设想。


1.

本文中的“相关性”(relevance),是指信息检索系统针对用户的查询(query)[1]从文档集中检出的文档与查询之间的一种匹配关系[2]。这一说法自然是粗泛得很,因为它并未清楚地指出这种匹配究竟是在哪些方面。其实,相关性的定义问题半个世纪以来一直引起许多讨论和争议。如下文所说,西方信息检索研究者们已经就这一问题讨论了几十年,至今未能做出一个明确而且可操作的定义,而在中文信息检索研究圈子内,对这个概念的讨论非常少,几乎见不到集中讨论这一问题的论述。中文信息检索研究很大程度上是在西方已有理论体系之内进行的,如果说有什么特色的话,多半集中在汉语相对于西方语言显示出的特殊性上,如分词的必要性、句法分析(parsing)以及索引(indexing)以什么为基本单位等等,结果像“相关性”应该如何定义这样的一些基础理论问题极少引起重视。可以说,在这个问题上中文信息检索仍然处于一种直觉和感性的阶段。

2. 相关×××的必要性

信息检索的核心是在文档集中为用户检出最相关的子文档集[3],或者按检出文档的相关程度进行排序,作为对检索用户所提出查询的回应。但“相关性”的概念一直非常模糊。一方面,人们观察到特定文档对特定查询而言可以有多种“相关”的方式,比如用户输入war一词作为查询向系统提交,系统返回的文档列表中的文档A讲述第二次世界大战,B谈论越南战争的退伍军人,都可以说与war“相关”,但我们显然觉得二者与查询的相关并不属于同一层次。另一方面,用户对检出文档是否真正相关的判断也有诸多差异。仍以war为例,用户a认为一篇讲Hitler的文档是相关的,但对用户b来说很可能不是这样。但是在设计信息检索系统的过程中,不可避免地要用到相关性这个概念;具体地说,设计者必须对怎样才算是“相关”有一个比较明确的想法,然后才能以此为基础展开具体工作,探索改进系统性能的理论和方法。何况对于学科建设而言,把研究建立在无法确切定义的概念基础之上,不能不说是理论上的漏洞。在没有弄清楚什么是相关性之前就谈论怎样区别相关和不相关文档,的确令人觉得在逻辑上缺少了一个重要的环节。早期的信息检索研究者对“相关性”直觉的依赖或许可以与句法学家对句子可接受性程度的直觉相比:直觉是他们的研究得以进行的基础。但句法学家的任务正是努力揭示人的语言直觉本身,而相关性直觉却被作为研究其他问题的参照物。

然而,正如CuadraKatter所说,虽然“大多数研究人员在做系统评价时都意识到(相关性)判断的不一致性,但倾向于觉得这些不一致的情况‘讨人厌’,应该尽快地绕过去,而并不认为这种现象应该得到重视。”(Cuadra and Katter, 1967: 12, 14) 信息检索研究针对性极强,与应用的衔接又非常紧密;于是在一种急功近利的心态下,研究者们往往不愿做近乎“哲学”性的讨论,所以索性越过究竟什么是“相关”这一看起来很“浅显”的问题。

这种奇怪的现象近些年来有了很大的改观。尤其在西方,信息科学研究者越来越多地意识到有必要给“相关性”下一个明确的或可操作的定义。Schamber et al. (1990: 756)举出了这种必要性的三个理由(这里已在文字上作了简化):

1. 相关性是衡量所有信息系统性能的指标。新的系统不可避免地要以人做出的相关性判断为基础进行评估。

2. 有的信息检索系统实际上在工作过程中要用到用户的相关性判断,例如相关反馈(relevance feedback)机制把用户当作系统不可分割的一部分。在这类系统中,相关性就已经不再是主要用于评价的一个反应性的(reactive)概念,而是成了一个主动的(active)概念,对系统本身的运行起着关键作用。然而如果不搞清楚相关性用户意味着什么,似乎很难想象系统怎样才能用户检索相关的信息。

3. 信息科学家们最终必须把相关性作为一个基本概念为之做出理论和经验上的定义,这样该学科才可以接下去讨论其他问题。

实际上从19世纪50年代人们已经就“相关性”各个方面的问题展开了激烈的争论(如1958年国际科学信息会议,ICSI);60年代,为了弄清相关性判断受何种因素影响进行了几次实验性的研究(Cuadra and Katter, 1967; Rees and Schultz, 1967);70年代,已经开始尝试建立“相关性”的理论框架,如Saracevic (1970, 1975)努力列举出相关性的所有可能的层次并做了细致的归纳;Cooper (1971, 1973)将“相关性”与“用处”(utility)区别开来以澄清概念上的模糊;80年代,试图从认知的和动态的角度看待相关性,例如以知识表示(knowledge representation)等为理论基础的观点认为,用户的判断实际上是在文档信息与头脑中已有的概念知识体系之间寻找匹配的过程;这种观点注意的是用户的内部概念体系与外部世界的相互作用以及内部知识与相关性判断的关系。(如MacMullin and Taylor, 1984; Taylor, 1986; Belkin et al., 1982; Dervin, 1983)动态的观点实际上贯穿了相关×××的始终:50年代Vickey (1959a, 1959b)等人就指出相关性判断总是随着时间变化,而且因用户不同而不同。这种观念在80年代被融合于信息检索过程中的人机交互(见Ingwersen, 1984)以及人工智能中的问题求解(problem solving)之中(Simon, 1981),不过这一时期对相关性这一概念的理论探讨不多。(Schamber et al., 1990: 767) 90年代的研究基本上延续了认知主义传统,讨论得更加全面。以Saracevic (1996)为代表的论述更加深入细致地剖析相关性的概念意义,指出应该在多个层次和角度上研究相关性,包括系统(system)角度、认知(cognitive)角度、情境(situational)角度和动机(motivational)角度等。相关性概念被解剖得非常细致,人机交互已经成为这方面研究的焦点之一。Mizzaro (1998)提出一个重要的观点,认为时间也是相关性的一个维度,在人机交互过程中是无法回避的。这一观点已经得到普遍认同。直到今天,相关性的讨论仍在热烈进行中(如Cosijn and Ingwersen, 2000)。

但是,虽然对此的讨论已经很多,对相关性的定义看来却是很难达成一致。实际上对任何学科来讲,要给某一直觉概念下定义都是很困难的,而且无论何种定义都有商榷的余地。因此,本文并不想给出明确的定义,而是试图找出某种既保留系统角度相关的可操作性又考虑了用户因素的具体方法。(关于可操作性以及用户因素请见下文的讨论。)

3. 相关性判断的复杂性

与其他涉及到直觉的判断一样,人们对“相关性”的判断也并不总是一致的,而且同一个人对同一组对象的判断也可能在多个层次上有所不同。为了信息检索的科学性起见,在此不涉及那种哲学解释学性质的讨论;不过,我们的看法与Schamber et al. (1990)基本一致:在相关性概念中用户理应被放在关键的地位。检索系统的输出归根结底是要由用户进行评判的,相关性判断只能由用户做出,系统从本质上讲只能起一个工具性的辅助作用。既然如此,影响相关性判断的因素就特别值得注意。上文提到,CuadraKatter (1967)为调查这些因素做了一系列实验,结果表明至少有以下几个因素影响用户对相关性的判断:

信息检索中“相关性”概念的研究

1 影响相关性判断的因素。个体差异因素指受试(用户)在做相关性判断时表现出来的知识水平和技能;刺激材料因素指文档的一些特性,如文体风格、专业性等;限定因素指实验者给受试的指导的微小差异;情境因素指时间压力、不确定情况、反馈以及其他的一些“强加的社会动力”(imposed social motivations);量表因素指实验中受试所使用的相关性程度评价量表,如果设计得过窄则可能无法很好地反映受试的判断情况;受试需要按照检索的目的和文档的用途来判断相关性,意图因素就是指做判断时所依据的“参照系”。

这些因素都对用户的判断造成影响。暂且不谈外部因素,即使在合作进行检索系统开发的人员当中,也必然存在判断不一致的情况,但系统必须“知道”如何判断相关性,而这种机制实际上是设计者对用户判断方式的模拟。最终的系统只能将用户判断有差异这一事实“忽略”过去。较复杂一些的检索系统如以向量空间模型 (Vector Space Model) 为基础的SMART (Salton and McGill, 1983) 等等固然包含了某种“相关反馈”(relevance feedback)技术,即以已经得出的检索结果和用户的相关性评价为依据,不断修正查询表达式(query formulation)和检索结果集合;但是,系统赖以区分相关与不相关文档集的算法却只考虑文档自身的特性[4]。已有的检索技术很多,算法当然各异,但其最终的目标又只有一个,而这一目标却是那样地不易把握。所以,“当相关性看来不能独立作为一个评价指标时,它就被包含于别的指标,如召回率(recall)或精确率(precision)当中。”(Schamber et al., 1990: 755) 这样,召回率和精确率就成了评价检索系统的“客观公正”的尺度,计算这两个指标已经成为行业内评测方法的标准。然而这与“相关性”问题无关,因为召回率和精确率并不等同于用户的判断依据。研究“相关性”含义的目的,一是为了对检索技术开发提供参考性的指导,另外在一定程度上也是对“客观公正”尺度的质疑和重新审视。

4. 定义“相关性”的两个角度

4.1. 系统角度的相关 (system-oriented relevance)

信息检索似乎从一开始就定位为一种单方向的过程,即系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位;基于这种理解,研究的重心自然落在系统本身。由此,所谓的主题性相关(topical relevance, topicality)便有了“依据”。主题性相关的基本含义是,检索系统检出的文档的主题即核心内容与用户的信息需求相匹配。相关性被认为是系统的属性而与用户基本无关。用户提出的查询只是被拿来与已经确定下来的文档表示相比较。

信息检索的主要工作简而言之就是提取文档内容特征项(content identifier)的过程。有两种主要应用,一是用检索系统来查询结构化的信息,如早期检索系统所能提供的文档作者、标题、关键词(需要预先提取)等。对于较为复杂的非结构化文档则要费许多功夫,现有的多数检索系统依靠着复杂的数学和统计计算,通过一些函数得出像文档向量(向量空间模型的典型做法)、相关概率(概率检索模型)等等数据。这些模型的提出都是建立在这样一种假设之上,即从文档中提取的文档表示(representation)或者相关概率都可以是相对固定的。主题性相关正是在这种固定的信息与用户的查询要求(即查询表达式的核心意义)之间寻求匹配。说得明确一些,就是认为所有文档都有一些客观存在的特征信息在那里等待提取。

系统角度的相关一般有两种比较方式。其一是在文档本身固有的特征信息(feature)如词频等等与用户提交的查询表达式中固有特征信息之间进行比较。典型做法是在文档集中寻找出现了查询表达式中的索引项(item)的文档;其二是在从文档中抽取的“主题”(topic)与用户查询表达式中体现的“主题”之间做比较,即首先计算文档中各索引项的权值,再按权值大小进行排序,以此为依据确定文档的主题词。

信息检索中“相关性”概念的研究

2 系统角度相关两种典型的比较方式。在(a)中,文档的形式化表示一般被表示为索引项集,查询表达式与文档的这种形式化表示相比较。(b)中文档中的主题词一般是从索引项集中提取的权值较大的索引项子集;查询关键词是从查询表达式中进一步提取出来的。

这种做法比较简单明了,易于操作而且可以直接观察,所以一直是信息检索研究者们乐于接受的。实际上这是因为设计检索技术时通常必须假设存在着某种“客观”的相关性标准,否则信息检索研究无法进行下去。信息检索内在的不确定性与相关性判断的不确定性,对于要求精确的计算机科学来说确实不利;在此情况下,假设存在客观标准是一个不得已的办法,另外通过概率计算也可以得到较好的效果。问题在于,以这些方式提取的信息究竟能否“准确地”反映文档的内容主题和用户的判断,反映的效果如何。实际上并不存在确定性的主题:文档的内容无法用这些确定性的表示(representation)标记出来。(Schamber et al., 1990: 759)这样就有一个问题:主题性相关如何检验?一般的看法是,用户必须觉得检出文档是“关于”其所查询的那个信息的,所以主题性相关从用户角度来讲就是“关于性”(aboutness)[5]。所以系统角度相关仍然要与用户挂起钩来;脱离用户谈相关是不可能的。

4.2. 用户角度的相关 (user-oriented relevance)

系统角度相关不能被作为一个充分的定义,因为它过于偏重检索活动的一个方面而忽视了另一个方面。随着检索系统日益广泛的应用,特别是由于近几年来互联网络的急剧膨胀,研究者投向用户的目光越来越多了。人们开始更多地思索人机交互过程中人的因素。其实如前所述,相关性判断的不确定性向来是一个众所周知的事实。这种不确定性是由多种原因造成的,但基本上集中于用户的主观因素上。信息检索研究者的观点从虽然简单但引起很多争议的系统角度相关,转向了强调用户的认知过程与信息需求的用户角度相关。后者在几十年的研究历史中都为几乎所有研究者所接受,虽然对相关性的理解和分类方法各不相同。

Saracevic (1970)等人使用概念相关(conceptual relatedness)一语,强调相关匹配应当是文档所含信息与用户需求信息两者的概念之间的匹配。这种定义相对地侧重于抽象的意义:要取得这种相关性,从文档中提取的特征信息应该能准确表示文档的核心意义,同时系统还要完全“领会”用户提交的查询所表达的真正需求。这无疑是一个理想的状态:系统只有在真正“理解”来自文档和用户查询两方面信息内容的前提下才谈得上“概念”上的比较。但是这种定义仍然起不了什么作用,因为意义既然无法完全把握,究竟怎样才算“理解”并不清楚。

从用户角度讨论相关大体上就是观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。研究者们用了许多意义相近的词来描述这种反应,实际上是描述相关性概念内涵的各个不同侧面。散见于文献中的有关术语包括:

主题性相关topical relevance / topicality

指文档内容的核心意义与查询的主题相一致

动机性相关motivational relevance

指文档符合用户进行查询的目的(intent)

情绪性相关affective relevance

指用户对作为返回结果的文档的主观评价和态度

有关pertinence

多指在某一具体查询(session)过程中结果与用户的信息需求之间的关系,或称认知相关(cognitive relevance)

匹配matching

一般泛指结果与要求之间存在的某种一致性

提供信息informativeness

满足satisfaction

适合appropriateness

有用usefulness, utility

对应correspondence

……

1 表示“相关性”的术语。左列是术语;右列是研究者使用这些术语时所用的大致意义。

可以看出,很多用语都表示大致相近的意思,只不过是换了个词。不论是满足(satisfaction)还是对应(correspondence),都指系统输出相对于用户需求的作用;提供信息(informativeness)有用(usefulness)也都是说系统输出对用户有所帮助。实际已经很难再进一步解释这些词之间的细微差别。像其他学科一样,用近义词语描述相同概念以区分不同内涵这一常见做法,往往会导致学科内部概念的混乱而很少起到好的作用。这种混乱一方面表明学术思想非常活跃、学科朝气蓬勃;但同时也暗示着该学科在某种程度上的不够成熟。如Schamber et al.所说,对相关性的定义太多,“总体来讲,与其说有什么帮助还不如说更加令人迷惑不解。”(1990: 759) Saracevic (1996) 以相关性的属性(attributes)和相关性的表现(manifestation)这两个术语来整理这种局面,努力建立相关性的理论框架。属性大致指相关性概念的定义中所蕴含的意义的各个方面;表现指相关性的外在属性。他归纳了这样几个属性:

w 关系 (relation):相关性概念的核心。

w 意图 (intention):目标、任务(role)、期望(即动机,motivation)等。

w 背景(context):即检索任务本身,涉及检索的意图。相关性判断必须以此为依据。

w 推论 (inference):对关系的有效性的评价,亦即用户根据其对文档的相关性判断进一步做出的关于文档的用途、如何有效利用等的判断。

w 交互 (interaction):用户对文档的判断结论随着其认识发生变化的动态过程。

另外他区分了相关性的几个不同的表现,每种表现描述一种不同的关系

w 系统(system)/算法(algorithmic)相关

w 主题性(topical)相关/topicality

w 认知(cognitive)相关/有关(pertinence)

w 情境(situational)相关/用途(utility)

w 动机(motivational)/情绪(affective)相关

Saracevic, 1996,转引自Cosijn and Ingwersen, 2000

算法相关是系统以逻辑或统计原则对文档及查询进行相似性比较得出的,因此属系统角度相关。在现有的各系统中,这种比较(计算)算法的基础假设是:依据两篇文档中索引项的(统计)分布情况可以区分不同的文档。算法相关比较的是文档和查询各自的特征(features)主题性相关是在文档和查询各自的主题 (subject/topic)之间的比较结果。基础假设是:可以由一个认知媒介(cognitive agent)对查询和信息客体(即文档)双方进行解释,从各自当中提取主题。(Cosijn and Ingwersen, 2000: 539)算法相关与主题性相关都是从系统角度定义的,但其区别在于,前者对文档和查询进行近似直接的比较;后者需要预先从二者中抽取主题,然后对主题进行比较。主题性相关判断的标准是文档是不是“关于”所提出的信息需求。

认知相关基本思想是信息客体应当“符合”用户的认知需求。文档是否具有这种相关性,很大程度上取决于用户的主观判断,用户在判断时的知识状态(state of knowledge)等主观因素往往影响着判断结果。从系统角度来讲,如何取得相对于用户认知状态的最佳模拟(simulation)无疑是很关键的,但前提是要更好地“理解”用户的查询表达式所体现的真正的信息需求。那么,用户表述信息需求的有效性就成为了另一个关键。

情境相关来说,判断的目的是相关性判断的依据。在很多情况下这种判断决定了判断者对被判断信息的取舍(是否适合某一目的):首先要理解检索目的,即本次任务(session)要求被检出的信息具有哪些必需的特征,然后判断这些信息是否符合这种要求(对本次检索来说是否“有用”)。因此这次检索任务就是判断的背景(情境),这种背景因素就是判断过程中的关键。

动机相关中检索目的(意图)的作用非常明显:相关性判断的直接意义是被检索出的文档是否“满足需求”;判断的结果往往以是否“成功”、“满足需要”、“完成检索任务”为标准。正因特定的目的性很强,所以动机相关体现了用户判断的主观(情绪)性质。

相关性具有“多维”特征,这已经是信息检索研究者们的共识。但并非所有的影响因素都在相关性判断过程中起直接作用。CuadraKatter的因素列表(见1)与Saracevic的分类体系中有许多概念原本不应放在同一层次上,这里我们来做一个重新分类:

信息检索中“相关性”概念的研究

3 影响相关性判断的各因素。黑体字部分为原分类体系中的用语。

文档是相关性判断的对象,是对用户的直接刺激材料;背景对判断过程中所有因素都发生作用,与其说是判断的影响因素还不如说是其论域(universe of discourse);检索意图是判断的背景依据,情境(在这里指的是心理压力、不确定情况、社会制约因素等)与意图对任何判断行为都是制约因素;而另外两个制约因素——实验者和量表的影响基本上是属于“干扰”因素。特定的判断行为不涉及个体差异。

相关性判断虽然涉及到系统和用户两个方面,但只能由用户对系统输出进行评价,而这种用户评价才是系统性能的最终评判者。在回顾了三十多年相关×××文献之后,Schamber et al.非常明确地提出了用户中心论的主张:

我们所主张的这种动态的、情境的观点把用户(暂且不论系统)看作是相关性各个方面的核心和积极的决定因素(active determinant)(1990: 755)

用户因素在相关性判断中起非常关键的作用。虽然这种判断不完全由用户的主观意志决定,而是同时受到一些外部因素的影响;但是,“相关”实际上是用户对文档信息源的一种解释。对用户来说,文档是来自外部的材料刺激,那么相关性判断就可以看作是从文档(外部刺激材料)在用户内部因素中的反映(见4):

信息检索中“相关性”概念的研究

4 用户角度相关的基本模式。

这正是用户角度相关性观点的基本思想。但这并不起什么实质性的作用:系统仍然不知道如何计算相关度。

近来Mizzaro (1998)提出了一个比较成功的形式化的理论框架,试图将以往的主要研究成果作一总结。在这一框架中,相关性有四个主要维度:

1) 信息源 (information resources):用户所需要的对象(entity)可以分析为三个层次,即文档 (document),是检索系统检出的结果的实体(physical entity);文档的代表 (surrogate),指文档的某种表示 (representation),包括主题、关键词集、作者姓名等结构化的信息;信息 (information),即用户在阅读已经被检出的文档时所获得的非实体性的东西。

2) 信息需求的表示 (representation of the user’s problem):分四个层次,分别为真正的信息需求(RIN, Real Information Need)感觉到的信息需求 (PIN, Perceived Information Need)请求 (Request)查询表达 (Query)。这四者之间呈现一个序列:

RIN à PIN à Request à Query

这就是说,用户不一定意识 (PIN) 到自己实际上想查询什么信息(RIN),他所表达出来的需求即请求 (Request)也可能与真正的需求甚或感觉到的需求有一段距离;由于查询表达式 (Query)只是这种表达出来的需求的形式化表示,当然与前三者都可能存在差异。

3) 时间 (time):特定文档或其代表相对于某一特定的查询来说,有可能在某个时刻是相关的,但在另外的某一时刻又可能是不相关的。

这一维度非常典型地体现了相关性(判断)的动态性。由于用户拥有的知识以及其RIN都会随着时间推移而变化,因此他对文档相关性的判断必然不是恒定不变的。时间因素的这种影响已经为研究者们所认同。这就产生了一个棘手的问题,即相关性的判别看来已经没有一个固定的标准可言。

4) 构件 (components):这一维度与前三个相比复杂得多。首先,信息源和信息需求表示包括了主题 (topic)、任务 (task) 和情境 (context)。设这三者构成一个集合,那么构件则是这一集合的幂集减去空子集,即

Components={{topic}, {task}, {context}, {topic, task}, {topic, context}, {task, context}, {topic, task, context}}

换句话说,构件指的是不同检索行为而在主题、任务和情境方面呈现出来的差异。

这样看来,诸多的研究可以说已经把相关性的各个方面分析得淋漓尽致,但是已经将相关性置于一个无法准确测度的境地,似乎是信息检索研究者对相关性判断的不确定性的一种无奈的感叹。

5. 讨论与假设

站在从第三方的角度看待系统角度/用户角度相关性定义之争,可以看出这两种态度都是有理由的。19世纪40年代信息检索才被确立为一门独立的学科,在这一时期计算机应用和电子文本的大量出现成为传统的数据检索(data retrieval)向现代意义的信息检索(information retrieval)过渡的主要推动力。由于信息检索以自然语言文本为主要处理对象,用户的查询与检出文档之间由匹配(matching)关系变为相关关系;数据检索的精确性被信息检索的不确定性所代替。信息检索的迫切需要促使人们直接开始研究如何在用户查询与文档之间寻求“匹配”,这无疑是数据检索方法和思维方式的延续。但这种做法很快便显出了不足:用户对“匹配”与否的判断不再是简单的“是”或“否”这种二值性对立,而是一个渐变的连续统(continuum)。而这种现象正是由用户判断的主观性决定的。

在对相关性没有一个统一认识的情况下,要使信息检索技术研究能进行下去,只能假设存在某种判断相关性的客观标准。这种研究建立在对“相关性”的直觉定义基础上:可以从文档中提取主题词,而这些主题词可以成为文档核心内容的近似表示。系统认为如果用户的查询与这些主题词匹配,那么文档就是“相关”的。

从用户角度研究相关性是信息检索学科理论中必不可少的一个环节。系统角度相关强调的是技术实现问题,但其关于相关性的假设应当符合用户的判断。从前面的评述可以看到,关于用户角度相关的各种讨论,得出的结论总是“相关性概念是多维的”,并不具有可操作性。这种理论探讨似乎无法与系统开发有效结合起来。研究者们早就意识到用户在相关性判断中的作用,但虽然从用户角度讨论相关性定义的文献多如牛毛,却从未有一个确定性的结论;用户的主观因素的确难以捉摸。这样就形成了一个尴尬的局面:一面是相关×××如火如荼,另一面是检索系统研究只能对此作无奈的观望,结果系统判断相关性仍然要通过词频计算等机械手段而无法利用相关×××成果。

相关反馈技术很早就应用于信息检索,从中可以看出研究者们感觉有必要使用户的判断参与检索过程。研究者显然是假设用户的查询要求是明确的、始终如一的。然而如前面所说,用户的主观因素在判断过程中起很大作用,所以与系统设计者的期望有一定距离。相关反馈式查询可能至少有这样几种情况:(1)用户的后续查询(subsequent queries)可以对其不够具体的初始查询(initial query)进行细化、具体化。这种情况是相关反馈技术所期望发生的。后续查询的作用大致相当于过滤器,将已经检出的文档集不断缩小,最终得到相关度最大的文档集。(2)用户的查询目的并不十分明确,后续查询与初始查询相比发生了某种细微的变化。后续查询所表达的概念不是初始查询所表达概念的子集。这不是一种理想情况,因为对后续查询的检索响应不应当在已经检出的文档集内进行。由于存在后一种情况,我们认为后续查询与初始查询一般应当看作不同的查询。结果,尽管相关反馈技术在信息检索系统中已经成为一个重要部分,但不应当夸大其有效性。

从系统角度定义的相关性(即主题性相关)最突出的优点,就是简明和可操作性;而至少目前的系统还无法把握人的主观感觉。这样看来,采取主题性相关的态度就是唯一可行的做法(也许是权宜之计)。然而我们并不觉得词频统计是唯一的解决办法。通过计算词频来提取文档主题词,似乎并不完全符合人的直觉判断,尽管在许多情况下这种方法证明是有效的。另一方面,用户角度相关由于太多的不确定性而被批评为“无法测度”:

唯一能够检验或测度的相关性是查询请求与文档集中的词项对应。……如果我们允许个人推论和个人理解介入相关性判断,那么从某种角度来看,任何文本对任何请求都是相关的。(Fairthorne, 1963: 111-112,引自Schamber et al., 1990)

所以,改进系统角度相关度计算方法似乎比较可以接受。基于此种看法,我们在这里做这样一个设想:如果主题词提取算法能体现用户的相关性判断直觉,那么用户的相关性判断就可以被描述,而检索系统的输出就可能更加令人满意。

信息检索中“相关性”概念的研究

5. 改进的系统角度相关计算方法。

由前面的介绍和讨论可以看出,对用户角度相关性的探讨大都是形而上学性质;不论是“属性”还是“表现”(见4.2小节),讲的都是相关性概念自身的特性,而没有谈及用户究竟是如何判断相关性的。用户判断当然可能是以多种直觉为依据,我们认为,相关×××的任务之一应当是描述用户的直觉,而不是停留在对概念本身的玩味上。比如我们的直觉之一是:文档中重要的信息往往比较集中地出现在某些句法位置(如主语、动词补足语、介词补足语等)上,这些信息在许多情况下接近于文档的主题词。换句话说,话题(核心内容)似乎被有规律地安排在某些位置上(这种安排一般是无意识的)。实际上,对这种直觉的可靠性我们已经做了基于语料库的检验:在将一定规模的语料中的名物性短语(nominal phrase)进行句法位置标注之后,我们以在方法论上与位置标注无关的一种权值计算公式(这种公式在信息检索界被大量采用,用以计算索引项对文档的贡献大小)为依据,用计算机程序得出这些短语的权值;对这些数据的统计结果表明,二者之间的相关性具有显著意义。既然这种直觉是事实,那么系统就可以通过赋予这些位置上的信息以较高的权值来提取主题词[6],这样就避免了机械的词频统计方法,在保留系统角度相关的明确和可操作的优点的同时,将用户的直觉融入了相关性算法。这正是将用户主观性与系统算法的客观性相结合的一条可能的途径。

文献目录

Belkin, N. J., R. N. Oddy and H. M. Brooks. 1982. “ASK for information retrieval.” Journal of Documentation 38(2): 61-71 and 38(3): 145-164.

Cooper, W. S. 1971. “A definition of relevance for information retrieval.” Information Storage and Retrieval 7(1): 19-37.

Cooper, W. S. 1973. “On selecting a measure of retrieval effectiveness, part 1. The subjective philosophy of evaluation.” Journal of the American Society for Information Science 24(2): 87-100.

Cosijn, E. and P. Ingwersen. 2000. “Dimensions of relevance”. Information Processing and Management 36: 533-550.

Cuadra, C. A. and R. V. Katter. 1967. Experimental Studies of Relevance Judgments: Final Report. I: Project Summary (NSF Report No. TM-3520/001/00). Santa Monica, CA: System Development Corporation.

Dervin, B. 1983. An Overview of Sense-Making Research: Concepts, Methods and Results to Date. Paper presented at the International Communication Association Annual Meeting, Dallas, TX.

Fairthorne, R. A. 1963. “Implications of test procedures.” In A. Kent ed. Information Retrieval in Action. Cleveland: Case Western Reserve University Press.

MacMullin, S. E., and R. S. Taylor. 1984. “Problem dimensions and information traits.” The Information Society 3(1): 91-111.

Mizzaro, S. 1998. “How many relevances in information retrieval?” Interacting with Computers 10:305-322.

Rees, A. M., and D. G. Schultz. 1967. A Field Experimental Approach to the Study of Relevance Assessments in Relation to Document Searching. I: Final Report (NSF Contract No. C-423). Cleveland: Case Western Reserve University.

Salton, G. and M. J. McGill. 1983. Introduction to Modern Information Retrieval. McGraw-Hill.

Saracevic, T. 1970. “The concept of ‘relevance’ in information science; a historical review”. In T. Saracevic ed. Introduction to Information Science. New York: R. R. Bowker, pp.111-151.

Saracevic, T. 1975. “Relevance: a review of and a framework for the thinking on the notion in information science”. Journal of American Society for Information Science 26(6): 321-343.

Saracevic, T. 1996. “Relevance reconsidered ’96”. In P. Ingwersen and N. O. Pors. Information Science: Integration in Perspective. Copenhagen: Royal School of Library and Information Science.

Schamber, L., M. B. Eisenberg and M. S. Nilan. 1990. "A re-examination of relevance: toward a dynamic, situational definition”. Information Processing & Management 26(6): 755-776.

Taylor, R. S. 1986. Value-Added Processes in Information Systems. Norwood, NJ: Ablex.

Vickey, B. C. 1959a. “The structure of information retrieval systems.” Proceedings of the International Conference on Scientific Information, 1958, 2, 1275-1289.

Vickey, B. C. 1959b. “Subject analysis for information retrieval.” Proceedings of the International Conference on Scientific Information 1958 2, 855-865.



[1] “查询”(query)在本文中用作专门术语,指用户向系统提交的用于表达信息需求的表达式(expression)。在易引起误解的地方我们将用“查询表达式”这一术语。

[2] 现代信息检索以自然语言文本为对象,从严格意义上讲,文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用,本文也接受这种说法。

[3] 对现代信息检索技术而言,文档作者、标题等结构化特性较强的信息较易抽取,在本文不讨论以这些内容为对象的检索。

[4] 这些检索模型靠计算词频、文档频数等得出文档中检索项的权重,而文档本身的“相关”程度等等是以此为基础的。

[5]这个词极难翻译,这里只是一个临时的译法,有待商榷。

[6]要将这种判断方法设计到实用系统中,还要以具备一个有效的句法分析器为前提。

文章来源:http://www.in2in.com/jywang/publ/mfl0102.htm