Indexing by Latent Semantic Analysis--文献翻译

论文链接:Indexing by latent semantic analysis - Deerwester - 1990 - Journal of the American Society for Information Science - Wiley Online Library

摘要

        描述了一种用于自动索引和检索的新方法。该方法是利用术语与文档关联中的隐式高阶结构(“语义结构”),以便根据查询中找到的术语改进相关文档的检测。使用的特定技术是奇异值分解,其中一个大词按文档矩阵分解为一组 ca。 100 个正交因子,从中可以通过线性组合来近似原始矩阵。文档由 ca 表示。 100 个因子权重的项目向量。查询表示为由术语的加权组合形成的伪文档向量,并返回具有超阈值余弦值的文档。初步测试发现这种完全自动化的检索方法很有前景。

介绍

        我们在这里描述了一种自动索引和检索的新方法。它旨在克服困扰现有检索技术的基本问题,该技术试图将查询词与文档词进行匹配。问题是用户想要根据概念内容进行检索,而单个单词提供了关于概念主题或文档含义的不可靠证据。通常有很多方法可以表达给定的概念,因此用户查询中的字面术语可能与相关文档中的字面术语不匹配。此外,大多数单词具有多种含义,因此用户查询中的术语将逐字匹配文档中用户不感兴趣的术语。

        他提出的方法试图通过处理不可靠性来克服术语匹配检索的缺陷*所有通信都应发送给谁。 1987 年 8 月 26 日收到; 1988 年 4 月 4 日修订; John Wiley & Sons, Inc. 于 1988 年 4 月 5 日接受 0 1990,将观察到的术语-文档关联数据作为统计问题。我们假设数据中存在一些潜在的潜在语义结构,该结构部分被检索时单词选择的随机性所掩盖。我们使用统计技术来估计这种潜在结构,并消除模糊的“噪音”。基于潜在语义结构的术语和文档描述用于索引和检索。

        我们尝试过的特定“潜在语义索引”(LSI)分析使用奇异值分解。我们采用大量的术语-文档关联数据矩阵,并构建一个“语义”空间,其中紧密关联的术语和文档彼此靠近。奇异值分解允许空间的排列反映数据中的主要关联模式,而忽略较小的、不太重要的影响。因此,如果这与数据中的主要关联模式一致,则实际上并未出现在文档中的术语最终可能仍接近文档。空间中的位置然后作为一种新的语义索引。检索通过使用查询中的术语来识别空间中的一个点,并将其附近的文档返回给用户。

当前自动索引和检索方法的不足

        当前信息检索方法的一个根本缺陷是搜索者使用的词经常与他们搜索的信息已被索引的词不同。这个问题实际上有两个方面;我们将它们称为广义的同义词和多义词。我们在非常一般的意义上使用同义词来描述这样一个事实:

        很多方法可以引用同一个对象。处于不同上下文或具有不同需求、知识或语言习惯的用户将使用不同的术语来描述相同的信息。事实上,我们发现描述性术语使用的可变性程度比通常怀疑的要大得多。例如,两个人为一个知名对象选择相同的主关键词的概率不到 20%(Furnas, Landauer, Gomez, & Dumais, 1987)。在索引器间一致性研究 (Tarr & Borko, 1974) 以及由专家中介 (Fidel, 1985) 或经验不足的搜索者 (Liley, 1954; Bates, 1986) 生成搜索词时,一致性较差。同义词的流行往往会降低检索系统的“召回”性能。通过多义,我们指的是大多数单词具有不止一种不同含义(单应性)这一普遍事实。在不同的上下文中或当不同的人使用相同的术语(例如,“芯片”)时,具有不同的指称意义。因此,在搜索查询中使用术语并不一定意味着包含或标记相同术语的文档是感兴趣的。多义性是“精确度”差的一个因素。

        当前自动索引未能克服这些问题,很大程度上可以追溯到三个因素。第一个因素是索引项的识别方式不完整。用于描述或索引文档的术语通常仅包含用户作为一个组将尝试在其下查找的术语的一部分。这部分是因为文档本身不包含用户将应用的所有术语,有时是因为术语选择过程有意省略了文档中的许多术语。

        处理同义词问题的尝试依赖于智力或自动术语扩展,或同义词库的构建。对于可以使用此类工具建议其他搜索词的认真且知识渊博的搜索者来说,这些可能是有利的。全自动方法的缺点是某些添加的术语可能与预期的含义不同(多义效应),导致精度迅速下降(Sparck Jones,1972)。

     顺便提一下,使用小型交互式数据库的实验表明,随着从文档或从大量实际用户单词样本中提取的更多索引术语的添加,召回率单调提高而没有总体精度损失(Gomez , Lochbaum 和 Landauer,出版中;Fumas,1985 年)。我们在别处描述过的这种“无限别名”方法在非常大的数据库中是否有效主线待定。不仅存在歧义和缺乏精确性的潜在问题,而且识别文档文本中没有的索引词的问题也变得很麻烦。这是这里要描述的方法的动机之一。

          第二个因素是缺乏处理多义词的适当自动方法。一种常见的方法是使用受控词汇表和人工中介来充当翻译者。这种解决方案不仅极其昂贵,而且不一定有效。另一种方法是允许布尔交集或与其他术语协调以消除歧义。成功受到严重阻碍,因为用户无法考虑是否存在适当的限制性术语,并且这些术语可能不会出现在文档中或可能未包含在索引中。

         第三个因素更具技术性,与当前自动索引和检索系统的实际工作方式有关。在这样的系统中,每个单词类型都被视为独立于任何其他单词类型(例如,参见 van Rijsbergen (1977))。因此,匹配(或不匹配)几乎总是一起出现的两个术语与匹配在同一文档中很少发现的两个术语一样重要。因此,无论是在直接布尔搜索还是协调级别搜索中,成功评分都没有考虑到冗余,因此可能会在未知程度上扭曲结果。这个问题加剧了用户在有效地使用复合词查询来扩展或限制搜索方面的困难。

潜在语义索引 (LSI) 方法的基本原理

        我们通过一个虚构的文档术语矩阵来说明基于术语的信息检索系统的一些问题(表 1)。在表格下方,我们给出了一个可能已针对该数据库传递的虚构查询。标记为 REL(相关)的列中的“R”表示用户将判断文档与查询相关(此处文档 1 和 3 是相关的)。查询和文档(计算机和信息)中出现的术语在相应单元格中用星号表示; MATCH 列中的“M”表示该文档与查询匹配并且会返回给用户。文件 1 和 2 说明了所提出方法的常见问题类别

 交易。文档 1 是一个相关文档,但是,它不包含查询中的任何单词。因此,它不会被直接的术语重叠检索方案返回。文档 2 是一个不相关的文档,它确实包含查询中的术语,因此会被返回,尽管查询上下文使人类观察者足够清楚,至少有一个词的不同含义是有意的.请注意,在此示例中,在索引中找不到查询中的任何含义条件术语。因此,将它们与查询词相交并不是省略文档 2 的合理策略。

        首先考虑同义词问题。看待问题的一种方式是,从用户的角度来看,文档 1 应该包含术语“查找”,或者相反,从系统的角度来看,查询应该包含术语“访问”或“检索”。为了充实这个类比,我们可以认为任何文档(或标题或摘要)都是由可能就其主题所写的完整论述中的一小部分组成的。因此,我们从中提取索引词的文本是一个错误的观察,从中可以推断出哪些词实际上适用于其主题。查询也可以这样说;它只是对预期文件的一个示例描述,原则上它可能包含许多不同的术语。

        那么,在构建检索系统时,我们的工作是找到某种方法来根据实际发现的易错样本来预测查询暗示或应用于文档的“真正”术语(即“潜在语义”)那里。如果一个词条和另一个词条的出现之间没有相关性,那么我们就无法使用逐个词条矩阵中的数据来估计数据错误的词条和文档的“真实”关联。另一方面,如果存在大量结构,即某些单词模式的出现为我们提供了其他可能出现的强有力的线索,那么来自表的一部分(或全部)的数据可用于校正其他部分。例如,假设在我们的全部集合中,“access”和“retrieval”这两个词分别出现在 100 个文档中,其中 95 个包含“access”的文档也包含“retrieval”。我们可能有理由猜测包含“访问”的文档中没有“检索”可能是错误的,因此希望检索文档以响应仅包含“检索”的查询。这种推断可以基于的结构类型不限于简单的成对相关。

        在文档 2 中,我们希望我们的分析告诉我们,“信息”一词实际上是一个冒名顶替者。鉴于查询和该文档中的其他术语,我们将预测不会出现具有此处用于“信息”含义的术语,即搜索者所需的知识。相关结构分析可以让我们通过利用这些观察来降低多义词的权重。

        我们的整体研究计划一直是寻找克服这些问题的有效模型。我们想要一种表示,其中一组术语本身是给定文档相关性的不完整和不可靠的证据,被其他一些更可靠的指示实体取代。我们利用术语和文档关联中的隐含高阶(或潜在)结构来揭示这种关系。

揭示潜在语义结构的方法选择

        目标是找到并拟合术语和文档之间关系的有用模型。我们希望使用观察到的应用于文档的术语出现的矩阵来估计该基础模型的参数。通过生成的模型,我们可以估计观察到的事件实际上应该是什么。例如,通过这种方式,我们可以预测给定的术语应该与文档相关联,尽管由于单词使用的可变性,没有观察到这种关联。

        第一个问题是选择什么样的模型。文档之间和术语之间的语义相似性概念似乎是对文档间术语使用模式建模的核心。这导致我们将考虑限制在邻近模型,即试图将相似项目在某个空间或结构中彼此靠近的模型。此类模型包括:分层、分区和重叠聚类;超度量和加法树;以及因子分析和多维距离模型(参见 Carroll & Arabie,1980 年的一项调查)。

        通过发现潜在的近似结构来帮助信息检索在文献中至少有两条优先级。层次分类分析经常用于术语和文档聚类(Sparck Jones,1971;Salton,1968;Jardin & van Rijsbergen,1971)。潜在类别分析 (Baker, 1962) 和因子分析 (Atherton & Borko, 1965; Borko & Bemick, 1963; Ossorio, 1966) 也曾被用于自动文档索引和检索。

        例如,在文档聚类中,定义了一个距离概念,使得两个文档被认为接近于它们包含相同术语的程度。然后对文档到文档的距离矩阵进行聚类分析,以找到文档的层次分类。检索是基于探索这种结构的邻域。类似的努力已经分析了语料库中的单词用法并建立了相关术语的集群,实际上是在制作基于统计的词库。我们认为聚类方法的一个重要弱点是层次结构过于有限,无法捕获大多数文档集的丰富语义。例如,层次聚类不允许交叉分类,并且通常只有很少的自由参数(基本上只有 n 个参数用于 n 个对象)。根据经验,聚类提高了搜索的计算效率;它是否能提高检索成功率尚不清楚(Jardin & van Rijsbergen, 1971; Salton & McGill, 1983; Voorhees, 1985)。

        先前尝试的因子分析方法采用了文档对之间相似性的对称对称矩阵(基于统计术语重叠或人类判断),并使用线性代数构建了一个低维空间模型,其中相似的文档彼此靠近放置。因子分析模型具有比聚类模型更丰富的潜力(n 个点的 k 维模型有 nk 个参数)。然而,以前沿着这些思路的尝试也有缺点。首先,因子分析的计算成本很高,而且由于大多数先前的尝试都是在 15-20 年前进行的,因此它们受到处理约束的限制(Borko & Bernick,1963)。其次,过去的大多数尝试都考虑了因子分析模型的受限版本,要么使用非常低的维度,要么将因子分析结果转换为简单的二元聚类(Borko & Bernick,1963)。第三,一些尝试依赖于过于繁琐的数据收集技术,需要收集来自人类的数千个相似性判断(Ossorio,1966)。

        先前报道的聚类和因子分析方法也遇到了一定的代表性尴尬。通常,原始数据明确地关联两种类型的实体、术语和文档,并且检索问题的大多数概念都提到了这两种类型(例如,给定描述搜索者兴趣的术语,返回相关文档)。然而,到目前为止选择的表示一次只处理一个(例如,术语聚类或文档聚类)。任何试图将被忽略的实体放回表示中的尝试都是任意的,而且是事后的。一个例外是 Koll (1979) 的提议,其中术语和文档都在相同的概念空间中表示(另见 Raghavan & Wong (1986))。虽然 Koll 的方法在精神上与我们提出的方法非常接近,但他的概念空间的维度非常低(只有七个基本维度),并且维度是手工选择的,并且不像因子分析方法中的基本轴那样真正正交。 '

        我们的方法在许多方面与之前的尝试不同,随着模型被“更详细地描述”,这些方法将变得更加清晰。为了预示其中的一些差异,我们:(1)检查合理大小的问题(1000-2000 个文档摘要;和 5ooO-7000 个索引词); (2) 使用丰富的高维表示(大约 100 维)来捕获术语-文档关系(这似乎是成功所必需的); (3) 使用在同一空间中明确表示术语和文档的数学技术; (4) 直接从查询词中检索文档,无需旋转或解释底层轴,也无需使用中间文档集群。

        我们使用以下三个标准考虑了替代模型:

1、可调整的代表性丰富度。为了表示底层语义结构,我们需要一个具有足够能力的模型。我们认为层次聚类过于严格,因为它们不允许多重或交叉分类,并且基本上只有与对象一样多的参数。由于不知道正确的替代方案,我们寻找了功能可以改变的模型,作为选择可能不合适的结构的一些补偿。最明显的一类是维度模型,如多维缩放和因子分析,其中表示能力可以通过选择维度的数量 k(即每个对象的 k 个参数)来控制。
2、条款和文件的明确表示。同时表示术语和文档的愿望不仅仅是审美。在我们基于近似的潜在结构范例中,检索通过在语义结构中适当地放置与查询对应的新对象并找到附近的那些文档来进行。实现适当放置的一种简单方法是术语和文档是否在结构中具有位置。然后可以将查询放置在其术语点的质心处。因此,对于优雅和检索机制,我们需要所谓的双模式邻近方法(Carroll 和 Arabie,1980),它从一个矩形矩阵开始并构造行和列对象的显式表示。一种这样的方法是多维展开(Coombs, 1964; Heiser, 1981; Desarbo & Carroll. 1985),其中术语和文档都将显示为单个空间中的点,其相似性与欧几里得距离单调相关。另一种是双模因子分析(Harshman, 1970; Harshman & Lundy, 1984a; Carroll & Chang, 1970; Kruskal, 1978),其中术语和文档将再次表示为空间中的点,但给出了相似性通过点之间的内积。最终候选者在树中展开(Fumas,1980),其中术语和文档都将显示为树上的叶子,并且通过树的路径长度距离将给出相似性。 (其中一个版本相当于同时对术语和对象进行层次聚类。)术语和文档的显式表示也导致了一种直接的方式,可以添加或“折叠”新的术语或文档。不在原始矩阵中。新术语可以放置在它们出现的文档的中心;类似地,新文档可以放置在其组成词的中心。
3、大型数据集的计算易处理。许多现有模型需要 N4 或 N5 的计算(其中 N 是术语加上文档的数量)。由于我们希望使用至少数千个文档集,因此需要具有高效拟合技术的模型。

唯一满足所有三个标准的模式1是双模式因子分析。树展开模式 1 被认为在代表性上过于严格,并且与非度量多维展开一起,计算成本太高。双模式因子分析是基于奇异值分解 (SVD) 的熟悉的因子分析模式 1 的推广。 (参见 Forsythe, Malcolm, & Moler (1977), Chapter 9, 对 SVD 及其应用的介绍。)空间给出了它们的相似性。此外,还有一个可用的程序(Harshman & Lundy,1984b)以 N2 X k' 的顺序拟合模型。

SVD 或双模因子分析

        潜在语义结构分析从文档的术语矩阵开始。然后通过奇异值分解 (SVD) 分析该矩阵,以得出我们特定的潜在语义结构模型。奇异值分解与许多其他领域的数学和统计技术密切相关,包括特征向量分解、谱分析和因子分析。我们将使用因子分析的术语,因为这种方法在信息检索文献中有一些优先权。

        传统的单模因子分析从一类对象(例如文档)的所有对之间的关​​联矩阵开始(Borko & Bernick,1963)。这可能是人类对文档相似性判断的矩阵,或者是从原始术语到文档矩阵为每对文档计算的术语重叠度量。这个对称方形矩阵通过一个称为“特征分析”的过程分解为两个非常特殊形式的矩阵的乘积(包含“特征向量”和“特征值”)。这些特殊矩阵将原始数据分解为线性独立的分量或“因子”。通常,其中许多组件非常小,可能会被忽略,从而导致包含更少因子的近似模型。现在,每个原始文档的相似性行为都通过它在这个较少数量的因素上的值来近似。结果可以通过空间配置在几何上表示,其中表示两个文档的向量之间的点积或余弦对应于它们估计的相似性。

        在双模因子分析中,不是从仅与一种实体对相关的方形对称矩阵开始,而是从行和列上具有不同实体的任意矩形矩阵开始,例如,术语和文档的矩阵。这个矩形矩阵再次被分解成其他三个非常特殊形式的矩阵,这一次是通过一个称为“奇异值分解”(SVD)的过程。 (得到的矩阵包含“奇异向量”和“奇异值”。)在单模情况下,这些特殊矩阵将原始关系分解为线性独立的分量或因子。同样,其中许多组件非常小,可能会被忽略,从而导致包含更少维度的近似模型。在这个简化的模型中,所有术语-术语、文档-文档和术语-文档的相似性现在都通过这个较小维度上的值来近似。结果仍然可以通过空间配置在几何上表示,其中表示两个对象的向量之间的点积或余弦对应于它们估计的相似性。

        因此,出于信息检索的目的,SVD 可以被视为一种用于导出一组不相关的索引变量或因素的技术。每个术语和文档都由其因子值向量表示。请注意,通过降维,可以将具有稍微不同的术语使用概况的文档映射到相同的因子值向量中。这正是我们需要完成对前面提出的不可靠数据的改进所需要的属性。事实上,SVD 表示,通过用派生的正交因子值替换单个项,可以帮助解决我们所描述的所有三个基本问题。

        在各种问题中,我们使用 50-100 个正交因子或派生维度来近似原始术语文档矩阵。粗略地说,这些因素可能被认为是人为的概念;它们代表从许多不同的单词和文档中提取的共同含义成分。然后,每个术语或文档都由一个权重向量来表征,该向量指示其与这些基本概念中的每一个的关联强度。也就是说,特定术语、查询或文档的“含义”可以通过 k 个因子值来表示,或者等效地,可以通过向量在由因子定义的 k 空间中的位置来表示。意义表示是经济的,因为 N 个原始索引项已被 k < N 个可以近似的最佳代理代替。我们不试图解释潜在因素,也不试图将它们“旋转”到某种有意义的方向。我们的目标不是能够口头描述这些因素,而只是能够以一种避免作为描述符的单个术语的不可靠性、歧义和冗余的方式来表示术语、文档和查询。

        可以通过文档矩阵从其因子权重以合理但不完美的准确度重建原始术语。对于派生的 k 维因子空间不能完美地重建原始术语空间的方法很重要,因为我们认为原始术语空间是不可靠的。相反,我们想要一个派生的结构来表达在术语作为文档所指的基础使用中可靠和重要的内容。

        与因子分析的许多典型用途不同,我们不一定有兴趣将表示减少到非常低的维度,比如两个或三个因子,因为我们对能够可视化空间或理解它不感兴趣。但我们确实希望既能获得足够的功率,又希望将空间扭曲的程度降至最低。我们相信,任何大型文档集合的概念空间的表示都需要多个基本独立的“概念”,因此所需的正交因子的数量可能相当大。此外,我们相信欧几里得空间的模型充其量只是一个有用的近似。实际上,术语和文档之间的概念关系肯定涉及更复杂的结构,例如,包括局部层次结构和含义之间的非线性相互作用。通过增加维度的数量,通常可以使更复杂的关系近似地拟合维度表示。实际上,空间的不同部分将用于语言或对象域的不同部分。因此,我们有理由避免非常低和非常高的维数。在这两者之间,我们只以看起来效果最好的东西为指导。我们所说的“效果最好”并不是(在某些其他领域的惯例)在原始矩阵中再现最大量的方差,而是能够提供最佳检索效果的东西。

        我们如何处理这种表示形式的查询?回想一下,每个术语和文档都表示为 k 维因子空间中的向量。一个查询,就像一个文档一样,最初以一组单词的形式出现。我们可以将查询(或“伪文档”)表示为其分量词向量的加权和。 (请注意,每个文档的位置可以类似地描述;它是其组成词向量的加权和。)为了返回一组潜在的候选文档,将查询形成的伪文档与所有文档进行比较,并且那些返回具有最高余弦值的最近向量。通常,要么为文档的接近度设置一个阈值,然后返回所有高于它的阈值,要么返回最接近的 n 个。 (我们关注余弦测度是否是预测人类相关性判断的最佳相似性指标的问题,但我们尚未系统地探索任何替代方案,参见 Jones 和 Furnas,1987。)

        

 结论与讨论

        尽管先前在文献中已经提出并尝试了因子分析方法,但它们都存在我们认为当前尝试克服的严重缺陷。我们使用丰富的高维表示检查了合理大小的问题(1000-2000 个文档摘要;和 5000-7000 个索引词),这似乎是成功所必需的。同一空间中术语和文档的显式表示使得检索与用户查询相关的文档成为一件简单的事情。 Borko 和他的同事以前的工作 (Atherton & Borko, 1965; Borko & Bemick, 1963) 在名称上与我们的方法相似,但仅将因子空间用于文档聚类,而不是文档检索,并且计算简化降低了其代表性力量。例如,在 Borko 和 Bemick (1963) 中,对术语-术语相关矩阵(根据超过 260 个摘要的单词使用情况计算)进行了因子分析,并根据它们的可解释性选择了 21 个正交因子。根据摘要中每个术语的标准化因子负载将文档分为这 21 个类别,其性能与另一个自动系统的性能相当。然而,应该注意的是,用于分类的信息比 21 维因子空间中可用的信息要少得多,因为只使用了每个因子上“重要”项的因子负载(例如, 5、4 和 7 项的一个值,定义了附录 B) 中提供的三个样本因子。此外,Borko 的工作解决了文档分类问题,而不是文档检索问题。例如,没有讨论如何使用完整的因子空间(而不仅仅是从中派生的文档集群)进行文档检索。

        Koll(1979)关于基于概念的信息检索的工作在精神上与我们的潜在语义索引非常相似。基于统计术语共现,术语和文档都在单个概念空间中表示。从由一组七个不重叠(术语)和几乎跨越的文档定义的轴开始,术语被放置在适当的轴上。新文档放置在组成词的平均值处,新词放置在它们出现的文档的位置。该系统仅使用非常小的文档和查询数据库进行评估,但在某些情况下,其性能与布尔和自然语言查询的 SIRE 相当。我们对 MED 数据集的经验表明,使用更高维度的表示可能会获得更好的性能。此外,潜在语义方法不依赖于顺序(如 Koll 程序),它是一种揭示真正正交基轴或索引因子的数学严谨方法。

        LSI 的文件表示是经济的;每个文档和术语只需要用大约 50 到 150 个值来表示。我们还没有探索这些数字所需的准确程度,但我们猜测一个小的整数可能就足够了。可以减少大型文档集合的存储需求,因为在表示中删除了通过术语对文档进行表征的大部分冗余。抵消存储优势的事实是,可以检索文档的唯一方法是将查询向量与所有存储的文档向量进行详尽的比较。由于高维空间中的搜索算法在串行计算机上效率不高,这可能会降低该方法对非常大的集合的可取性。另一个缺点涉及更新。初始 SVD 分析非常耗时,因此我们需要一种更有效的方法来添加新术语和文档。我们建议新文档位于其术语的中心(适当缩放);并且新术语被放置在它们出现的文档的中心(适当地缩放)。无需执行新的分解可以完成多少更新是未知的。

        虽然 LSI 方法很好地处理了同义词问题,但它只为多义问题提供了部分解决方案。它有助于具有多种含义,因为单词的含义不仅可以由文档中的其他单词决定,还可以由特定相关文档的作者未使用的查询中的其他适当单词决定。失败的原因是每个术语都只表示为空间中的一个点。也就是说,具有多个完全不同含义的单词(例如,“bank”),表示为不同含义的加权平均值。如果没有一个真正的意义与平均意义一样,这可能会造成严重的扭曲。 (在经典的术语重叠方法中,术语的含义是其所有含义的结合,这可能会导致更少的完全扭曲,但会导致更多的不精确。)需要某种方法来检测特定术语具有几个不同的含义,并对其进行子分类并将其放置在空间中的几个点中。我们还没有找到令人满意的方法来做到这一点(但参见 Amsler (1984)、Choueka 和 Lusignan (1985);Lesk (1986))。

        我们讨论过的潜在语义索引方法,特别是我们测试过的奇异值分解技术,能够改进我们处理引用同一对象的多个术语问题的方式。它们用独立的“人工概念”代替单个术语作为文档的描述符,这些概念可以由多个术语(或文档)中的任何一个或其组合指定。以这种方式,不包含查询术语的相关文档,或者其包含的术语由查询或文档中的其他术语限定但不是两者都可以正确表征和识别。该方法产生了一种检索方案,其中文档通过与查询的相似性连续排序,从而可以根据用户和服务的需求和资源设置阈值。

        在其发展的这一点上,该方法应被视为检索系统的潜在组件,而不是完整的检索系统。作为一个组件,它的功能与原始术语向量排名和其他比较方法所提供的功能大致相同。如上所述,它的假定优势是降噪和通过消除冗余来压缩数据。在应用该方法时,会出现一些与原始向量方法相同的实现问题——特别是术语权重、词干提取、短语条目、相似性度量和布尔运算符的对应问题。不幸的是,这种检索增强程序的价值必须重新评估才能与 LSI 一起使用,因为它的表示改变了这些程序打算处理的问题的性质。例如,进行词干提取以捕获可能的同义词。由于 LSI 已经在某种程度上解决了这个问题,因此词干提取的附加价值是一个悬而未决的问题。同样,LSI 对多义词的“含义”进行平均,其中原始术语匹配保持一对多的映射;因此,短语和其他消歧技术可能更重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值