面向机器翻译的全文检索系统

转载 2005年04月25日 12:58:00
摘 要:本文介绍了面向机器翻译的全文检索系统的设计和实现,该系统在实现倒排档存
储结构和布尔逻辑检索、位置检索、检索相关性排序等普通全文检索系统功能的基础上
,提供面向机器翻译的多层次检索和跨语言检索功能。针对机器翻译中篇章、段落模糊
检索的难题,本文提出了缩检、精检的方法,并通过对文档的特征分析以及选择适当的
检索表达式模型,解决了面向机器翻译检索中相关性判别的问题,在句子相似度的计算
中运用了动态规划的思想。
关键词:机器翻译、全文检索、段落检索、篇章检索
一、 引言
随着人们对语言学认识的深入和计算机技术的发展,机器翻译技术得到迅速发展,涌现
出了一批实用化的机器翻译系统,特别是INTERNET 的发展使得网络机器翻译系统应云而
生。鉴于机器翻译是一个涉及语言学、计算数学、计算机技术、认知科学等多个领域综
合性的交叉科学,由于语言本身固有的复杂性和受目前人工智能发展水平的限制,机器
翻译译文质量仍然与客观需要有一定的差距,往往需要人工进行译后编辑,且翻译速度
因需用词典、规则做大量的语法、语义分析而与用户的需求也存在差距,因而提高机器
翻译译文正确率的工作是极其艰巨的。
因有重复翻译的需求,尤其是Internet网上的网页有很大的继承性,因此,我们提出存
储以前经过人工编辑或质量高的翻译结果,利用现有的翻译经验,不断提高机器翻译的
速度和质量的思想。作者根据一般全文检索系统的设计原理和规则,针对机器翻译系统
的特点,设计并实现了面向机器翻译的全文检索系统。该全文检索系统不仅具有改进的
全文检索功能,而且提供面向机器翻译的多层次检索和跨语言检索功能。
二、功能和总体结构
本系统同时提供面向用户和面向机器翻译的信息检索功能。面向用户的检索提供普通全
文检索系统的基本功能,使用户能充分利用已收集的双语信息,支持跨语言检索。面向
机器翻译的检索辅助机器翻译系统进行翻译,如果用户对机器翻译系统已翻译过的相似
文档(或段落)提出翻译需求,系统可以直接调用已存储在双语信息库中的译文信息,从
而提高翻译系统处理速度;此外,由于存储在信息库中的译文均已经过不同程度的译后
编辑,因此,提供给用户的翻译结果就更准确。
该系统设计和实现基于以下主要原则:(1) 继承普通全文检索系统的功能;在其基础上
,提供相关反馈的机制,增加机器翻译系统使用的检索功能;(2) 模型具有开放性,支
持多语种的扩充;(3) 系统易于维护,保持中英文索引结构的一致性;(4) 满足网络环
境下翻译、查询处理实时性高、信息量大的要求。
系统在倒排档的基础上,采用符合用户查询习惯的布尔检索模式,为用户检索和机器翻
译的检索提供快速和准确的检索结果。系统结构如下图所示:
各模块功能:
* 信息文档的预处理模块
信息预处理对不同来源的非纯文本文档进行格式过滤,系统同时保存其原文档及相应的
纯文本文档,使用户能够检索到以不同格式存在的文本信息。
* 索引模块
索引模块对文档库中的文档进行分析,建立各种索引信息为检索提供基础和保证。主要
内容包括:创建记录文档特征信息的倒排档;建立双语文档及其内部段落之间的对照关
系;进行文本分析,提取文档外部特征等。
* 面向用户的检索模块
根据用户的查询要求,读取文档信息的特征记录,查到用户所需信息。主要内容包括:
检索表达式的处理、检索处理、检索扩展处理、相关性排序、相关反馈等。
面向用户的检索同时也是面向机器翻译检索的基础。系统首先对输入的检索表达式进行
分析并查错,然后分别按单个可检词进行检索,经过对检索表达式中可检词的组合运算
,最后得到检索结果并排序输出。
* 机器翻译检索模块
针对机器翻译系统对篇章、段落的查询需求,根据系统模糊度的要求,在双语信息库中
检索出相同的篇章段落及其译文,或者给出双语库中未存该查找对象的结论。这是本系
统的核心模块。
三、 面向机器翻译的检索
篇章、段落精确匹配的概率较少,也容易实现。而如何根据机器翻译的需求,快速、准
确查找“相似”的篇章、段落是整个检索的重点和关键问题。本文采用逐步求精的方法
实现。对于篇章检索,首先按外部特征进行匹配,如存在,则对匹配结果直接进行精检
。若不存在,提取其主题词(集合)组配成检索表达式进行缩检。然后在缩减结果中进
行支持模糊匹配的精检,最终获取检索结果。对于段落检索,直接按缩检、精检的方式
进行处理。
3.1 缩检
缩检是指首先抽取代表要检索篇章、段落特征的主题词(集合),然后,根据这些主题
词组成的检索式在倒排档中查找相关篇章、段落,迅速缩小精检范围的处理过程。
3.1.1 主题词提取
由于网络信息检索具有较高的实时性要求,且此处的主题词提取是为了构造检索式,加
快检索速度,所以,对主题词的抽取不可能进行详尽的语法语义分析,也不适于用逆文
献词频法,所以本系统采用下述基于统计的方法实现。确定主题词时系统优先考虑以下
标引词:1)在标题或副标题句中出现的关键词,以及各级层次标题。对层次高的标题赋
予较大权值。层次标题由面向机器翻译的层次检索系统提取。2)文摘、关键词等特定位
置的关键词。3)段首、段尾中出现的关键词。4)相同条件下,词频较高且长度较长的标
引词权值大。
主题词加权函数的计算公式为:
其中,Pw为累计位置权重;Freg为该词的词频;Len为词长,Lmin是词长下限;c为一常
数,对于中文词,长词的专指性较高, c可取大些,对于英文词,差距不如中文明显,
c可小些。
Pw的初值定义为0。对于上述情况中关键词的每一次出现:1) 标题中,Pw = (;层次标
题中Pw = Pw + 10 * I(I为层次);2) Pw = Pw + 5;3) Pw = Pw + 1;关键词在其它句
中出现一次时,Pw = Pw + 1/句中总词数。
3.1.2 相关性检索
由于本全文检索系统支持检索词在同一段落中的查询,因此段落检索式的构造相对简单
,在提取出的主题词之间加上同段位置运算符即可,然后用此检索式在倒排档中查找相
关段落。
篇章的检索是一种相关性判别,目前,在相关性判断方面取得较好成绩的系统多采用向
量空间模型,如Salton领导下的SMART实验系统,但这种检索模型还没能在实用系统中运
用。有的系统采用的办法是,把所有提取出的主题词用或运算连接,在倒排档中检索以
缩小一定的范围,再在此范围内对所有文档生成空间向量以确定与查询文档的相关程度
。不过,本人认为这种方法效率不高,响应时间太长,不适合我们系统实时的要求。
本系统的篇章检索表达式采用加权检索提问式,避免布尔检索模型不能表达特征词的重
要程度的弊端,又易于在已选模型上实现。其方法是通过在检索式中提供主题词的权值
,根据检索文档与查询的相关程度是否超过阀值来确定该文档是否符合检索条件。
度量相似性公式:
其中,采用TF*IDF律指定文档关键词权重。M是数据库中的文档总数,Nt是包含词t的文
档数,fdt为词出现频率。是文档的长度,通过计算标引词的数量得到。
3.2 精检
精检是指在缩检得到的候选文档集合中进一步匹配并得到最终检索结果的过程。
系统优先进行重要特征的比较,以尽早排除不可能匹配的文档,缩小后期处理的范围。

需要检索的篇章,先分解成段落,并分别按段落精检方法进行检索。段落精检允许一定
的模糊性。当两个段落的结构特征基本匹配后,进一步划分句子,通过对句子进行相似
度的计算,最后判断段落是否匹配。系统运用了动态规划的方法计算句子的相似度。
把待翻译句子中的单词列为I-J平面的I轴上,实例句子中的单词列为J轴上,其中,格点
(i,j)的值为词i与词j间的相似度。两条语句间的相似度是一条原点到(I,J)的路径,语
句相似度的值为路径上所经过格点的匹配度之和。那么,句子间的相似度计算就转化为
在I-J平面中寻找一条最佳路径,使两语句的相似度最大。
为追求速度和准确性,目前的相似性查询不做同义词扩展等操作,状态k结点处的词间相
似度D(ik,jk)可简单定义为:如i,j相同,为1,否则为0。状态转移方程为:(ik,jk)
=uk(ik-1,jk-1)。
并且相似语句匹配的路径具有一定的限制条件:(1)单调性限制,要求路径必须是从起点
向右或向上延伸的。(2) 全局路径限制,倾斜路径优于竖直或水平路径。 (3)局部路径
限制,(ik,jk)的后序结点只计算(ik+1,jk)、( ik,jk+1)、(ik+1,jk+1) 三种情形,并
不会出现直角。
原点到(I,J)全路径的相似度S为:
动态规划的阶段最优递推公式为:
语句间的相似度定义为:
其中,n为待翻译句子中的词数。取相似度最大的语句作为检索结果,若不存在相似度大
于阀值的语句,返回查询失败标志。
这样我们就可以根据各个句子的相关度定义段落的相关度,从而检索出所需段落,甚至
篇章。
3.3 缩捡中相关性性能分析
首先通过例子介绍加权检索的原理。
例如:查询自然语言处理中的网络机器翻译方面的文献,用加权检索法提问式如下:
自然语言处理(1)机器翻译(3)网络(2)
如文献中同时包含三个词,则此文献的权值为1 + 3 + 2 = 6;如文献中包含自然语言处
理、机器翻译,则此文献的权值为1 + 3 = 4...以此类推。如设定下限阀值为4 的话,
同时包含三个词,或同时包含两个词(除自然语言处理、网络的组合外)都为命中的情况

下面我们与向量空间模型做个对比。
在向量空间模型中,将文献和提问都表示成向量。假设文献集合共有m个不同的标引词t
1,t2, …,tm,则集合中的每篇文献都可以用这m个标引词中的若干个予以表示。任一文
献可表示为标引词向量空间中的一个向量:
D = (T11, T12, ......, T1m)
同样地,一个提问Q也可以表示为

----------------------------------------------------------------------------------------------

搜索引擎在幕后怎样工作
作者 中国科学院软件研究所 朱洁
  计算机处理的数据量不断地呈指数增长,随着数据信息库积累的数据和主题越来越多,怎样快速、有效、经济地检索某个主题的所有信息,就成了一个十分热门的课题。解决这一难题的方法之一是采用智能搜索技术。本文中给出了自然语言处理的结构梗概,以及最终有助于网络用户查找信息的全文检索技术。
查找信息
  信息检索主要研究信息的表示、存储、组织和访问。即根据用户的查询要求,从信息数据库中检索出与之相关的信息资料。信息检索已从手工建立关键字索引,发展到计算机自动索引的全文信息检索、自动信息文摘、自动信息分类,并正朝着自然语言处理的方向发展。
  在信息检索领域,英语信息检索的发展较为迅速。如由Salton等人开发的SMART信息检索系统,可以利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息查询的准确性。中文信息检索系统的发展相对较慢,目前已有的中文检索系统绝大部分仍为关键词检索,甚至许多系统还处于“字”索引阶段。不仅效率较低,而且信息检索的精度和准确性很差。究其原因,是因为中文信息检索有自身的特点,比如中文语词之间没有空格,因此在索引前需要进行语词切分。另一方面,与英语相比,汉语句法分析和语义理解更为困难,造成中文信息检索的发展较为缓慢。
信息检索模型
  信息检索系统的核心是搜索引擎,它需要从纷繁复杂的大量信息中,筛选出符合用户需求的信息。例如,用户希望从信息库中查询有关计算机网络产品销售方面的信息,如果查询出的结果为计算机软件产品方面的信息,则不能满足用户的需求。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、向量空间模型以及概率模型等。
  布尔型信息检索模型,是最简单的信息检索模型,用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎根据事先建立的倒排文件结构,确定查询结果。标准布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。如查询“计算机”,只要文档中出现关键词“计算机”,则全部包含在查询结果中。为了克服布尔型信息检索模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。例如,查询“计算机”,那么出现“计算机”较多的文档将排列在较前的位置。
  与布尔型信息检索模型不同,向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。根据向量空间的相似性,排列查询结果。向量空间模型不仅可方便地产生有效的查询结果,而且能提供相关文档的文摘,并进行查询结果分类,为用户提供准确定位所需的信息。
  基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型,它利用相关反馈的归纳学习方法,获取匹配函数。
  虽然不同检索模型使用的方法不同,但所要达到的目标是相同的,既按照用户要求,提供用户所需的信息。实际上,大多数检索系统往往将上述各种模型混合在一起,以达到最佳的检索效果。
信息检索系统结构
  搜索引擎构成信息检索系统的核心。然而,信息检索系统还包括对索引信息文档格式的预处理、索引信息的分析、信息索引和用户信息检索等几个阶段。
信息预处理
  信息预处理包括信息格式转换和过滤两个不同层次。信关作为访问不同信息的机构,能够访问不同组织形式的数据信息,如各种数据库、不同文件系统以及网络Web页面等。同时,信息预处理也能够过滤不同格式的文档。如Microsoft Word、WPS、Text和 HTML等。这使得搜索引擎不仅能够检索正文文档,而且能够检索原始格式的文档信息。
信息索引
  信息索引就是创建文档信息的特征记录,它使用户能很容易地检索到所需信息。建立索引需要进行下列处理:
信息语词切分和语词词法分析
  语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符(空格),因此需要进行语词切分。汉语语词切分中存在切分歧异,如句子“使用户满意”可切分为“使/用户/满意”,也可能被错误地切分为“使用/户/满意”。因而需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。
进行词性标注及相关的自然语言处理
  在切分的基础上,利用基于规则和统计(马尔科夫链)的方法进行词性标注。基于马尔科夫链随机过程的n元语法统计分析方法,被证明在词性标注中能达到较高的精度。在此基础上,还要利用各种语法规则,识别出重要的短语结构。
建立检索项索引
  一般使用倒排文件的方式建立检索项相关信息,如表1所示。相关信息一般包括“检索项”、“检索项所在文件位置信息”以及“检索项权重”。例如,检索项“计算机”的位置信息为“文档D中第n段第m句第w词”。这样,在信息检索时,用户可以要求在查询中,检索项T1和检索项T2位于同一语句或同一段落中。检索项索引的建立准则是要易于文档信息的更新处理。
表1: 典型倒排检索项列表
    TERM1 DOCi, WTi1; DOCj, WTj1; _ ;DOCm, WTm1
    TERM2 DOCi, WTi2; DOCk, WTk2; _ ;DOCn, WTn2
    .
    .
    .
    TERMs DOCj, WTjs; DOCm, WTms; _ ;DOCp, WTps
查询扩展处理
  信息检索评价的标准是信息检索的精度和召回率。信息检索的精度为检索结果中相关信息文档数与查询结果总数之比。信息检索的召回率为实际检索出的相关信息文档数与信息库中总的相关信息文档数之比。
  为了提高信息检索的召回率,需要进行查询扩展处理。这种处理根据同义词词典和语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同一概念;因而查询“计算机”同时也要查询“电脑”,反之亦然。主题蕴涵扩展是指不但要查询检索词,而且还要查询其中所包含的子概念。比如,主题词“艺术”包括“电影”、“舞蹈”、“绘画”等等。“电影”又包括“故事片”、“记录片”等。因此,查询“艺术”当然包括“电影”、“舞蹈”、“绘画”以及其下的子概念。
  提高信息检索的精度,可利用向量空间模型实行相关查询反馈处理。即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度。
信息分类和摘要
  为了方便用户从查询结果中选择所需信息,搜索引擎可将提供给用户的文档信息按照文档内容进行分类,并为每一篇文档产生简短摘要。
  搜索引擎根据文本检索项的统计特征,对查询结果进行分类和摘要。例如,用户查询检索项“计算机”,相应的结果分类也许为“分类1”:“网络”、“系统”、“路由器”等;“分类2”:“市场”、“产品”、“销售”等;以及其它分类。分类的目的是便于用户找到相关信息。
智能代理
  搜索引擎除了被动搜索外,也可利用智能代理技术进行主动信息检索。信息检索系统智能用户代理,可根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件、数据库信息变化等。并将用户所需的信息,通过电子邮件或其它方式,主动提供给用户。用户无须反复搜索所需信息,这样将大大减少用户检索信息的时间。
  目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言处理,特别是自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。

基于Lucene的全文检索系统

  • 2010年05月23日 16:14
  • 6.78MB
  • 下载

分布式全文检索系统SolrCloud简介

前言 本文简单描述SolrCloud的特性,基本结构和入门,基于Solr4.5版本。 Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库。Solr是以Lucene为基础实现的文本...

Elasticsearch全文检索系统实现深入详解

题记学习ES的童鞋,都有一个开发一个类似百度的搜索引擎的想法。当然功能不一定是百度、360、谷歌传统的搜索引擎那么强大。但是,能实现基本的全文检索、指定类型的检索、评分高低优先级排序等等。那么问题来了...

基于lucene的全文检索系统

  • 2012年05月08日 19:10
  • 31.09MB
  • 下载

分布式全文检索系统SolrCloud简介

本文简单描述SolrCloud的特性,基本结构和入门,基于Solr4.5版本。 Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库。Solr是以Lucene为基础实现的文本检索应...
  • joeyon
  • joeyon
  • 2014年12月12日 14:43
  • 409

全文检索系统(Lucene)

  • 2011年04月05日 19:57
  • 1.78MB
  • 下载

基于Lucene的全文检索系统

  • 2011年08月23日 19:51
  • 648KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:面向机器翻译的全文检索系统
举报原因:
原因补充:

(最多只允许输入30个字)