基于结构化数据库的问答系统构建重点

介绍:
  基于结构化数据库的问答系统是从一个预先建立的结构化的数据库中查找提问的答案。系统需要将用户的自然语言表述转换成数据库的查询语言, 如SQL。

问题分析模块:
  首先, 问题分析模块将对用户所提问题进行分词操作。众所周知, 中文分词相对于英文分词要难得多, 这给中文问题的分析增加了难度。然后, 问题分析模块通常会对问题的类别进行分析, 问题的类别是反映用户提问意图的重要信息。问题的关键词、同义词、相似问题之类的信息也常常被问题分析模块用于理解用户的查询意图。此外,为了能够与搜索引擎更好地对接,问题分析模块有时还会重写问题。

问题分类:
  问题的类别其实也是答案的类别。问答的类别对其后的答案抽取具有重要的指导意义。由于每一类问题都有一些非常明显的特征, 因此很多WQA系统都采用了规则分类器对问题进行分类。

关键词提取和扩展:
  关键词是问题的核心成分,既可作为搜索引擎的输入,也可辅助答案的抽取过程。WQA系统通常在分词、去除停用词之后进行关键词的 提 取,并将名词、动词、形容词等句子中的重要成分作为关键词。因此,可以用一些简单的规则提取关键词:“所有带形容词的名词都是关键词”,“所有在引号里的非停用词都是关键词”等。LIU等人利 用自然语言处理工具分析问题的语法结构,然后抽取主语、宾语作为关键词。关键词的扩展主要是为了解决关键词的同义词的匹配问题。很多时候,网页片段中并不包含问题中的关键词,但却包含关键词的同义词,例如:问题“第 一 次 世 界 大 战哪年爆发?”中存在关键词“爆发”,但是网页片段“第一次世界大战发生于1914年。”中不包含“爆发”,却包含“爆发”的同义词“发生”。关键词的扩展通常需要一些同义词词库进行辅助。

答案抽取:
  答案抽取模块是 WQA 系统中的重点和难点。问题分析模块的分析结果和信息检索模块的检索结果都是答案抽取模块对答案进行抽取的重要依据。问题分析模块的分析结果包含问题类别、问题关键词等重要信息,这些信息能够很好地描述用户的提问意图。网页片段的列表作为信息检索模块的检索结果,是答案抽取模块抽取最佳答案的主要信息来源。答案抽取模块通过对上述信息的综合利用,使用信息抽取技术得到用户所需要的最佳答案。答案抽取模块通常包括两个主要步骤:候选答案抽取和候选答案排序。前者负责从网页片段中抽取出候选答案,后者负责对这些候选答案进行排序,从而得到最佳答案。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰风雪浪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值