Improving web-query processing through semantic knowledge and user feedback-1

看一篇关于搜索引擎方面的文章,将它翻译一下,水平有限,。。

  Improving web-query processing through semantic knowledge and user feedback

 
Abstract
Although search engines are very useful for obtaining information from the World Wide Web,users still have problems obtaining the most relevant information when processing their web queries.Prior research has attempted to use different types of knowledge to improve webquerying processing with various levels of success. This research presents a methodology for processing web queriesthat employs semantic knowledge about different application domains from ResearchCyc, as well as linguistic knowledge from WordNet. An analysis of different queriesfrom different application domains using the semantic and linguistic knowledge illustrates how more relevant results can be obtained.

Keywords: Web-query processing; Query expansion; ResearchCyc; Cyc; Semantic knowledge; Knowledge repositories

1. Introduction

The continued explosion of available information on the World Wide Web has lead to the need for processing queries intelligently to address more of the user’s intended requirements than previously possible [1]. Doing so, requires some notion of the context within which the query is being posed and the semantics of the query itself. In our context, intelligent means that the queries should be interpreted and extended in order to contextualize and disambiguate them.

Several knowledge repositories have been created to support agents (humans or programs) to increase the intelligence of their tasks. Examples include WordNet [2], Cyc [3], and ConceptNet [4]. Although all of these are useful for their intended purposes, they are limited as a general repository in several ways. Linguistic repositories, such as WordNet, do not capture the semantic relationships or integrity constraints between concepts. Semantic repositories such as Cyc do not represent linguistic relationships of the concepts (e.g. whether two concepts are synonyms). Some of the existing repositories are domain dependent and only represent information about certain aspects of the domains, not the complete domain. Research on query extension has used knowledge repositories to develop tools that assist the user in processing queries that capture the user’s intent [5], [6], [7], [8], [9], [10] and [11]. Most query extension approaches use only linguistic knowledge [12]. However, linguistic repositories lack semantic knowledge, so query expansion cannot deal with several issues: (1) knowledge related to the domain of the query, (2) common sense inferences, or (3) the semantic relationships in which the concepts of the query can participate. Grootjen and Weide [6] focus on creating a small lattice of concepts to support query expansion. In contrast, our approach focuses on grouping and using existing knowledge in large knowledge bases for query expansion in an efficient manner.

In this research, we consider semantic repositories to be repositories that represent semantic information about a domain. They are independent of syntax, word forms, and languages, but tend to be domain and culture dependent. Semantic repositories need linguistic knowledge to identify relevant concepts from the repository that represent a given term used in the query. Therefore, the integration of linguistic and semantic information into one repository could be useful to increase the contexts where knowledge in these repositories can be used successfully. Table 1 shows examples of improvement in search results using semantic and linguistic knowledge. The queries shown in Table 1 have been executed manually. The “% Rel” metric is the percentage of the number of documents that are relevant to the query in the first 10 documents returned by the search engine.

Table 1.

Improvement in search results using semantic and linguistic knowledge sources

Query

Domain

Results

% Rel

Source

Results

% Rel

Pets

Animals

53,600,000

70

ResearchCyc

24,600,000

100

 

 

 

 

ResearchCyc

10,400,000

95

 

Buying animals in Atlanta

 

 

ResearchCyc + WordNet

260,000

95

Nike Georgia

Bulling Sport Stuff

2,180,000

0

ResearchCyc

1,550,000

10

Flute Bohemian Drink

Drink

57,900

25

ResearchCyc

153,000

82.5

Bonderdorfers Atlanta

Music

73

50

WordNet

49

90

Which universities offer online degrees?

Education

 

50

WordNet

 

90

Find cookie stores

Restaurant

2,900,000

20

ConcepNet + textual sources

950,000

90

Full-size table

View Within Article

 

 

The Cyc ontology is a repository developed to capture and represent common sense. ReseachCyc (http://research.cyc.com) is a huge semantic repository. It should be possible to use techniques from Cyc [13], [14] and [15] to extend ResearchCyc with linguistic information from the WordNet lexicon, and factual information from the World Wide Web.

The objective of this research is to demonstrate that the use of semantic and linguistic knowledge together improves the query refinement process. To do so, we study the problems associated with the web-query process and show how ResearchCyc, in combination with WordNet, helps improve query results for web searches.

This research makes several contributions. First, it demonstrates that semantic and linguistic knowledge together improve query expansion. Second, the research identifies and formalizes web-query problems and presents a query classification scheme that explains why, in some cases, the query expansion may not be done successfully, even if the repository used to support such a task is complete. Such information is used to identify the structure and knowledge that an ontology should have to increase the chances of improving different kinds of queries.

2. Web queries

The purpose of a web query is to search for information that best reflects the user’s needed information. In this research, semantics is defined as the meaning, or essential message, of terms. To carry out useful research for dealing with semantics, symbols must be manipulated in ways that are meaningful and useful [16].

To process a web query, the expected result is ER. This information, in general, belongs to several domains, intended domains DI. Therefore, the expected result is contained in the knowledge defined for the intersection of all the intended domains ER   K(DI1) ∩ K(DI2) ∩  … , ∩ K(DIN), where K(D) represents a function that returns the knowledge defined in the domain D as illustrated in Fig. 1.


 

 

Full-size image (33K)

 

Fig. 1. Constraining the search domains for web queries.

View Within Article

 

 

To perform a search, the user creates an initial query (QI) selecting some terms w1, … , wk (called query terms Qw) to describe what he or she is searching for. The problem arises with the ambiguity of the languages humans use. The user considers a query, Qw, within a given context (i.e., the context of the intended domains). Since words have several senses in several domains, query search techniques are not able to determine which of the senses of a given query term is the one in which the user is interested. Given this ambiguity, the result of the query tends to contain results that deal with a number of domains DO1, … , DOm greater than the intended domains (m   n)1. The resultant domains are called obtained domains, with each depending on a subset of the query terms DO(W), where W   {w1, … , wk}.

Suppose a user lives in Georgia, USA., and wants to buy sports shoes with Nike brand. ER is “Places in Georgia (USA) where I can find a pair of Nike shoes”. ER is composed of domain information that deals with sport stuff (sport shoes), commercial information (brand Nike sells sport stuff), and geographical information (which commercial organizations in Georgia sell Nike products). These three domains are the intended domains. Suppose the user defines a query that contains two words Qw = “Nike Georgia”. Then, some of the DO will be DO1 (Nike) = Commercial Brand, DO2 (Nike) = Greek Mythology (Nike is the goddess of Victory in Greek Mythology), DO3(Georgia) = Central-European Country, DO4 (Georgia) = State in the United States of America, and DO5 (Georgia) = Football Team Georgia Bulldogs. The query results will be the web pages that deal with the presented DO.

2.1. Web-query problems

The ambiguity of the language used in the query, the possible partial knowledge of the user, and the difficulty in determining what the user really wants, lead to the following problems that affect the processing of web queries.

Identification of a good initial query: There is no systematic way, or guidelines that support the user in identifying the best terms for a query. A good selection of QI is important. Terms that are too general may result in too many irrelevant DO, and results. Using very specific words may result in missing some of the results that match ER because they use a plain language.

Resolving language ambiguity: Documents that deal with the same domain can use different terms for describing the same concepts. Therefore, for a given concept (sport stuff) some documents may use the terms (sport stuff), other documents may use synonyms (sport material), and other terms that deal with the same concept, but more generally (playing sport artifact) or specifically (trainer).

Identifying the relevant results: It may be difficult to detect whether a given result of the query is valid. A result is valid if it belongs to the expected result. The problem is that the expected result is in the mind of the user. A result is also valid if it belongs to the intersection of the intended domains. Unfortunately, we do not know what those domains are, and, due to word ambiguity problems, we cannot conclude that the obtained domains are the expected ones. Hence, it is not possible to identify which results are relevant for the user and which are irrelevant.
通过语义知识和用户反馈改进网页查询处理
 
摘要:
尽管搜索引擎在从互联网上获得信息方面很有用,但是,当用户进行网页查询时,想获得最相关的信息还是有很多问题。之前的研究已经试图在各种成功水平之上使用不同类型的知识来提高网页查询。本文提出了一个用在网页查询处理的方法,该方法使用了来自ResearchCyc( Cyc 是一个试图对日常生活常识综合建立综合的 本体论 和数据库的 人工智能 工程 , 其目标为是使 人工智能 具有和人类似的推理能力 .)关于不同应用领域的语义知识,也使用了来自WorldNet(  WordNet 是由 Princeton 大学的 心理学家 语言学家 和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个 单词的网络 。它是一个覆盖范围宽广的 英语 词汇语义网。 名词 动词 形容词 副词 各自被组织成一个 同义词 的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接 的知识。使用语义和语言知识对来自不同领域的不同查询词的分析说用了可以获得更相关的搜索结果。
关键词:网页查询处理  查询词扩展  ResearchCyc Cyc  语义知识  知识贮藏库
1.  介绍
互联网上可用的信息不断膨胀,需要智能的处理查询,以便比以前更能满足用户主观需求。所以,需要提交查询词所在的上下文环境中的一些概念和查询词本身的语义。在本文的上下文环境里,智能的意思是可以解释和扩展查询词,以便可以将查询词放在上下文环境中进行研究和消除歧义。
已经建立了几个知识库来支持代理(人类、程序)提高他们执行任务时的智能,例如 WordNet Cyc ConceptNet 。尽管所有这些知识库对于他们主观目的来说是有用的,但是它们在一些方面跟普通库一样有局限。比如像 WordNet 这样的语言库不能捕获两个概念之间的语义相关性和完整性约束。像 Cyc 这样的语义库不能捕获概念之间的语言相关性(不管这两个概念是否同义)。一些现有的库是基于领域的且只能表现关于领域某些方面的信息,而不是整个领域。对查询词扩展的研究已经使用了知识库来开发工具,辅助用户处理可以捕获用户自己意图的查询词。大部分查询词扩展方法只使用语言知识。但是,语言库缺少语义知识,所以查询词扩展不能处理以下几个问题:(1)与查询词领域相关的知识。(2)常识推论。(3)查询词的概念能参与的语义相关性。 Grootjen Weide 的方法是创建一个小的概念格来支持查询词扩展。与之比较,我们的方法是用一种有效的方法,分组和使用大型知识库中已有的知识来支持查询词扩展。
在本文,我们把语义库看作是表示一个领域中语义信息的库。这些库独立于语法、词形、和语言,但依赖于领域和文化背景。语义库需要语言知识来识别库中的相关概念 , 这此概念表示在一次查询中给定的查询词 . 因此,一个库中的语言完整性和语义信息在改善成功使用库中知识的上下文环境方面是有用的。表1列出了使用语义和语言知识来提高搜索结果的例子。表中的查询是手工完成。“%R el “是跟查询相关的文档的数量比例的比例。
yc 本体论(一个大词典,大知识库)是一个用来捕获和表示常识的知识库。R eseachCyc 是一个大型的语义库。它应该可以使用 Cyc 中的技术,结合 WordNet 词典的语言信息和互联网上的实际信息来扩展 ResearchCyc
本研究的目的就是证明使用语义和语言知识来提高查询优化处理。为此目的,我们研究了跟网页查询过程相关的问题,展示了 ResearchCyc WordNet 怎样有助于改善查询结果。
本研究有几个贡献。第一,它展示了语义和语言知识一起改进查询扩展。第二,本研究识别和形式化网页查询,提出一个查询分类计划来解释这一些情况下,为什么查询词扩展难以成功实现,尽管过去用来支持这样任务的库是完整的。这样的信息用来识别这样的结构和知识,一个本体应该增加提高不同查询的机率。
2网页查询
网页查询的目的是查找最能反映用户需要的信息。本研究中,语义别定义为词的意义或词的本质信息。为了对语义做出有用的研究,必须以有意义和有用的方式对符号进行管理控制。
进行一次网页查询,期望结果为E 。总得来说,这个E 属于几个领域,预期的领域D 。因些,期望结果包括在预期领域的交集中,ER,,,,,,,,,,其中K(D)表示一个返回领域D中知识的方程。
为了进行一次查询,用户建立一个初始查询系列(QI)挑出一个查询词来描绘用户要查找的东西。问题随着人类使用的语言的模糊性而产生。使用者在一个给定的上来文环境来考虑查询。由于一个词在不同领域里有不同的意思,查询词查询技术不能决定给定的查询词的那个意思是用户感兴趣的。这样的模糊性,导致了查询的结果包括比预期的领域大得多的领域。这个结果领域叫做获得领域,每一个领域都依赖于查询词W的一个子集,其中W。。。。。
假如一个用户住在美国佐治亚州,想买一双NIKE的体育鞋,期望结果ER就是“佐治亚能买到NIKE鞋的地方”。ER包括体育、商业、地理信息。这三个领域是预期的领域。假如用户定义了查询包含两个查询词“Nike Georgia”。这样,获得领域中,有一些是D(NIKE)=Commercial Brand,有一些是D(NIKE)=希腊神话。有一些是D(Georgia)=中欧一个国家。有一些是D(Gergia)=美国一个州。有一些是D(Georgia)=足球队。查询的结果是涉及这获得领域的网页。
2.1网页查询问题
查询中语言的模糊性,用户知识的片面性和确定用户真正所需的困难导致以下影响网页查询的问题。
--确定一个好的初始查询:没有系统的方法或指南来支持用户确定最好的查询词。一个好的查询词的选择是重要的。太普通的词会产生太多相关的领域和结果。使用太特别的词会遗失一些与ER相匹配的结果,因为使用的语言太清晰。
--解决语言的模糊性:涉及到一个相同领域的文档可以使用不同的词来描绘相同的概念。因此,因此,给定一个概念(sport stuff)一些文档使用词(sprot stuff),一些使用近义词(sport material)或者其它描述相同概念的词,只是更一般或者更特别。
--确定相关结果:很难判别一个给定的查询结果是否合有效。如果它属于ER,那么这个结果是有效的。问题是ER是存在于用户的意识中。如果它属于预期领域的交集,这结果也是有效的。不幸的是,我们不知道这些领域是什么,同时,根据词的模糊性问题,我们不能下这样的定论:获得领域就是我们期望的。因此,不可能识别那些结果对用户来说是相关的,那些是不相关的。
(待续)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 提升单目深度估计方法来改进海洋透视。 海洋透视是指由于海洋介质的光学特性,人眼在水下观察物体时出现的模糊和失真现象。为了改善海洋透视,可以利用单目深度估计方法。 单目深度估计是借助计算机视觉技术来估计图像中每个像素点与相机的距离。在传统的单目深度估计方法中,主要依赖于图像中的几何和纹理信息来推断深度。然而,在海洋环境中,由于光线的折射和散射,图像中的几何和纹理信息丧失较多,导致传统方法的准确性下降。 为了克服这个问题,可以通过改进单目深度估计方法来提高海洋透视的效果。一种方法是利用深度学习技术,通过训练神经网络来学习从输入图像中预测深度的映射关系。可以使用已标注的水下图像数据集进行监督学习,使网络能够学习到更准确的深度估计模型。另外,还可以对网络进行迁移学习,使用在陆地环境下预训练的模型,在海洋环境中进行微调,以适应海洋透视的特殊情况。 另一个改进单目深度估计方法的途径是改进特征提取和匹配算法。可以通过使用更好的特征描述子和特征匹配算法,提高单目深度估计的稳定性和准确性。例如,可以使用基于学习的描述子,如深度卷积神经网络提取图像特征,再通过优化的匹配算法实现更准确的深度估计。 总之,通过利用深度学习和改进特征提取与匹配算法,可以显著提高单目深度估计方法在海洋透视上的效果。这将有助于提高水下图像的质量和可视性,在海洋环境下进行相关应用和研究。 ### 回答2: 提升单目深度估计方法以改善水下透视。水下透视是指我们在水下看到的物体变得模糊和失真的现象。为了解决这个问题,研究人员一直在探索使用单目深度估计方法来改善水下透视。 单目深度估计是通过使用单个摄像机来估计图像中物体的距离和深度。在水下,由于水的折射效应,光线会发生折射,导致图像失真。因此,传统的单目深度估计方法往往无法准确估计水下的物体距离和深度。 为了解决这个问题,研究人员提出了一些改进的单目深度估计方法。这些方法包括使用水下场景中的先验知识和模型,从而更好地估计水下物体的深度。例如,可以通过水下传感器捕获的信息来构建水下场景模型,并在深度估计过程中结合使用。此外,还可以利用水下图像的颜色和纹理信息,通过神经网络和机器学习方法进行深度估计。 这些改进的单目深度估计方法的应用可以在水下摄影、水下导航和水下探测等领域中发挥重要作用。例如,在水下摄影中,利用改进的深度估计方法可以提高图像的清晰度和质量,使得拍摄的照片更加真实和可视化。在水下导航和探测中,使用改进的单目深度估计方法可以提供更准确的水下环境信息,从而帮助人们更好地识别、定位和探测水下物体。 总之,改进的单目深度估计方法可以有效地改善水下透视问题,并在水下领域的各个应用中发挥重要作用。随着技术的不断发展,相信这些方法将进一步提升水下图像和数据的质量和可用性。 ### 回答3: 提升海洋透视图像的质量可以通过单目深度估计方法来实现。海洋透视图像通常受到水下湍流、波浪和光线散射等因素的影响,导致图像质量下降。而单目深度估计方法可以通过分析图像中的视差信息来估计场景中的深度信息。 单目深度估计方法有多种实现方式,其中一种常用的方法是基于卷积神经网络(CNN)。该方法通过训练一个深度估计网络,从输入图像中直接预测每个像素的深度信息。训练过程使用带有深度标签的真实图像和对应的深度地图进行,可以通过最小化预测深度与真实深度之间的差异来优化网络参数。 通过使用单目深度估计方法,可以从原始的海洋透视图像中获取更准确和清晰的深度信息。这将有助于改善海洋透视图像的视觉效果和质量。准确的深度信息可以用于场景还原、物体分割和虚实混合等应用中。此外,通过深度估计,还可以对图像进行后续处理,如去除湍流和波浪的影响,进一步提高视觉效果。 总而言之,使用单目深度估计方法可以有效地改善海洋透视图像的质量。这一方法通过分析图像中的视差信息来预测深度信息,从而提供更准确和清晰的深度信息。这将有助于改善海洋透视图像的视觉效果和质量,并为进一步的图像处理提供基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据出境研究所

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值