s10从服务器检索信息时出错,信息检索系统技术方案

【技术实现步骤摘要】

【国外来华专利技术】

本专利技术涉及一种能够从大量的信息中利用者容易发现所需求的信息的信息检索系统。近年,随着互联网的普及,在WWW(World Wide Web)上登载有由HTML(Hyper Text Markup Language)记述的各种各样的首页,一般利用者需要处理大量的信息的时代已经到来。另外,公开有称为FAQ(FrequentlyAsked Questions)集的、针对频繁询问和解答的列表,利用者可以得到有关询问的解答。这些信息,对于利用者来说,如果知道所需求的信息的所在就可以立即阅览,非常方便,相反如果要从大量的信息中发现自己所需要的信息将是一件件难的事情。为此,产生了从文档中选出关键词作为该文档的特征量,计算出特征量的内积求出为文挡间的近似度,检索针对询问的近似文档的检索技术。但是,由于互联网上的信息或者在事例基础上积蓄的FAQ集是向很多人独立提供信息,不能避免信息的重复,大量存在具有相同内容的文档。因此,在现有技术中,作为类似于询问文的文档,结果检索出大量具有相同内容的文档,而利用者仍然需要从大量的检索结果中找出自己需要的信息的作业。如果将检索结果限制在一定数量内,又可能没有自己所需要的信息,这成为检索技术的课题。另外,即使利用者成功地从检索结果中找出了自己希望的信息,由于在FAQ集中没有反应,其他利用者在相同条件下检索时需要同样的手续。在避免信息的重复的同时进一步充实FAQ集,必须要检查同样的信息是否存在,成为信息提供者的负担。本专利技术的目的在于提供一种可以减轻利用者的信息检索的负担的信息检索系统。本专利技术的另一目的在于提供一种容易更新检索对象的信息的信息检索系统。为了达成上述目的,本专利技术的信息检索系统,计算文档的特征矢量,根据特征矢量对文档进行簇分类,将文档的检索结果按簇归类进行显示。这样,把检索结果为相似文档的集合,利用者容易把握。另外,本专利技术的信息检索系统,当利用者输入询问时检索相似询问,将对应的回答向利用者或者专家提示,利用者或者专家选择了认为最恰当的回答时,以该选择的回答为基础自动更新文档数据库。如果没有恰当的回答,以专家输入的回答为基础自动更新文档数据库。这样,当下次输入了同样的询问时就可以适合的回答了。下面对附图进行简要说明。图1为表示本专利技术实施例的信息检索系统的构成的方框图。图2为表示图1所示的文档存储部中所保存的文档例的图。图3为表示图1所示的利用者显示部中检索结果的显示例的图。图4为表示图1所示的特征矢量抽出部的处理顺序的流程图。图5为表示所抽出的文档特征矢量例的图。图6为表示图1所示的簇分类部的处理顺序的流程图。图7为表示簇分类结果例的图。图8为表示图1所示的簇标签作成部中单词标签作成顺序的流程图。图9为表示作成的单词标签例的图。图10为表示图1所示的簇标签作成部中文标签作成顺序的流程图。图11为表示作成的文标签例的图。图12为表示图1所示的文档标签作成部的处理顺序的流程图。图13为表示作成的文档标签例的图。图14为表示本专利技术实施例2的信息检索系统的构成的方框图。图15为表示图14所示的文档存储部中所保存的文档中询问表部分例的图。图16为表示图14所示的文档存储部中所保存的文档中回答表部分例的图。图17为表示图14所示的专家显示部中检索结果的显示例的图。图18为表示图14所示的利用者显示部中检索结果的显示例的图。图19为表示图14所示的特征矢量抽出部中利用者询问的特征矢量抽出顺序的流程图。图20为表示从利用者询问中抽出的特征矢量例的图。图21为表示图14所示的近似度运算部的处理顺序的流程图。图22为表示以图14所示的数据库检索更新部的处理顺序为主的流程图。以下参照附图说明本专利技术的2个实施例。实施例1图1为表示本专利技术实施例1的信息检索系统的构成的方框图。图1所示的信息检索系统由文档存储部11、簇存储部12、簇标签存储部13、文档标签部14、特征矢量抽出部15、簇分类部16、簇标签作成部17、文档标签作成部18、数据库检索部19、接口部20、利用者输入部21和利用者显示部22所构成,例如通过互联网在相互连接的文档服务器和利用者终端之间实现。文档存储部11保存多个文档。特征矢量抽出部15从保存在文档存储部11中的文档中抽出特征矢量。簇分类部16根据特征矢量抽出部15获得的特征矢量,对保存在文档存储部11中的文档进行簇分类。簇存储部12保存由簇分类部16进行簇分类后的文档的簇。簇标签作成部17对于由簇分类部16作成的各簇作成表示该簇内容的簇标签。簇标签表示由单词构成的单词标签和由文句构成的文句标签。簇标签存储部13保存由簇标签作成部17作成的簇标签。文档标签作成部18根据由簇标签作成部17作成的簇标签的要素的各文档,作成表示该文档内容的文档标签。文档标签部14保存文档标签作成部18作成的文档标签。利用者输入部21接收由利用者给出的检索条件。作为检索条件,只要是文档的关键词、文档ID等文档检索的条件即可。接口部20管理与利用者之间的输入输出。数据库检索部19从文档存储部11中检索满足检索条件的文档。利用者显示部22向利用者提供检索结果。图2为表示图1所示的文档存储部11中所保存的文档的例。在文档存储部11中保存成为检索对象的给定n(n≥2)个文档。各文档由唯一的文档ID和文章形式的正文构成。第i条文档记为Di(1≤i≤n)。图3为表示图1所示的利用者显示部22中检索结果的显示例。依据图3,对于某一检索条件的文档检索结果按每一簇归类显示。具体讲,簇ID和包含在该簇中的文档的文档ID以及正文,按每一簇以表的形式显示,用鼠标点击或者按键,将显示其他簇的内容,这样可以显示所有的显示结果。这样利用者容易把握类似检索结果的文档。并且,在所显示的簇中,显示表示该簇内容的簇标签的同时,文句标签所指定的文句用下划线表示。因此,利用者容易把握簇的内容。此外,作为检索结果、虽然也显示了簇ID和文档ID,也可以部显示。以下,分别按文档录入时动作和文档检索时动作说明上述实施例1的详细内容。文档录入时动作是指最初将文档录入到文档存储部11中时,或者在这之后进行文档的追加/变更/删除时的动作。文档检索时动作是指检索录入的文档进行阅览时的动作。<文档录入时动作>图4为表示图1所示的特征矢量抽出部15的处理顺序。首先,特征矢量抽出部15依次取出保存在文档存储部11中的所有文档Di,抽出各文档Di的特征矢量Vi。特征矢量是表示文档特征的单词Tj及其重要度Wij的组作为要素的矢量,其要素的数量依据文档而不同。在此,j表示识别单词的唯一的编号。在图4中,在第S101步,将文档计数i设定为i=1。在第S102步,从文档存储部11中取出文档Di,通过周知的形态要素解析、构文解析、除去不要词等方法,从正文中抽出所出现的单词Tj,计算在文档Di中单词Tj出现的次数Fij。在结束判定的第S103步,对于所有文档如果第S102步的处理已经结束,即i=n时进入到第S105步。没有结束时进入到第S104步。在第S104步,将计数器i加1进入到第S102步。在第S105步,作为单词Ti的相对于所有文档的重要度,由单词Tj出现的文档数的多少表示,即IDF(inverse document freque本文档来自技高网...

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值