计算机论文:面向中文问答系统问题分析与答案抽取方法之计算机研究
本文是一篇计算机论文,本文提出了基于双向长短时记忆神经网络(Bi-directional Long Short Term MemoryNetwork, Bi-LSTM)的答案抽取模型。该模型直接用 Bi-LSTM 对问题的表示向量学习,通过利用卷积神经网络(Convolutional Neural Network, CNN)进一步提取问题特征,然后利用注意力机制对答案的表示向量与问题最终表示向量的相关性进行加权。该模型有效地提取了问题与答案之间的关系。第 1 章 绪论1.1 研究背景及意义随着计算机和网络技术的飞速发展,人类社会已进入信息时代。根据中国互联网络信息中心(CNNIC)于2018年1月31日发布的第41次《中国互联网发展状况统计报告》显示,截至2017年12月,中国网民规模达7.72亿,普及率达到55.8%1。根据以上数据可以看出,越来越多的人倾向于使用互联网来获取所需要的信息资源。而在当前信息迅猛发展的时代,如何从海量数据中获取有用信息是当前学术界和工业界的一个研究热点。传统的搜索引擎一般都是根据关键字来检索已经排序好的文档,但是随着互联网数据的日益增加,仅仅通过关键字只能获得语言层面信息却无法深层次地获得用户检索需求。此外,其在网页信息利用率中也有着不足之处。在这种情形下,问答系统(Question Answering Systems, QA Systems)应运而生。问答系统是新一代智能搜索引擎,它综合运用了知识表示、信息检索、自然语言处理等技术,允许用户以自然语言提问,并能够向用户返回准确的答案[1]。与传统的关键字检索相比,问答系统能更好地满足用户对快速、高效、准确获取信息的需求[2,3]。从应用角度,问答系统现已应用到各行各业,其降低了人机交互的门槛,非常适合成为互联网的入口。虽然早在二十世纪六十年代问答系统就已产生,但目前开发出的问答系统的表现效果还不够理想。与英文问答系统不同的是,中文自然语言的语句分析较为困难和复杂,其主要在于问题的句法结构复杂,字词的歧义消解,语义表达的灵活多样[4,5]。因此,在中文问答领域,对问题的精准处理可以有效帮助问答系统抽取出更好的答案。本文现阶段答案抽取是从该问题的答案集合中选择最佳答案,可等同答案选择和答案排序,为了保持上下文一致性,本文仍以答案抽取来表示对答案的选择。因此,本文主要从问题分析和答案抽取两个角度对问答系统进行进一步研究。问题分析主要包括问题分类、主题焦点提取、问题扩展处理。问题分类是将用户所输入的问题归入不同的类别,使系统能够针对不同问题类型采取不同的答案反馈机制得到答案集合。目前问答系统通常使用机器学习算法训练问题分类器来实现用户问题的分类。例如文献[6]中通过利用最邻近(Nearest Neighbors, NN)[7]、朴素贝叶斯(Na?ve Bayes, NB)[8]、决策树(Decision Tree, DT)[8]、稀疏Winnow网络模型(SparseNetwork of Winnows, SNoW)[9]、支持向量机(Support Vector Machines, SVM)[10]等方法分别对问题的表面文本特征进行分类,结果发现SVM的分类效果明显优胜于其他几种方法。文献[11]以字符来表示文本,并通过使用深层卷积神经网络(ConvolutionalNeural Network, CNN)来对句子进行分类。无论是基于统计模型还是基于神经网络模型,这些分类算法均需要先验知识来训练模型。这在实际应用中不仅耗费大量人力物力,还具有一定的局限性。另外,还可以采用一些无监督分类算法(即聚类算法)得到分类结果。例如基于统计的模型有k-均值(k-means)、主题模型等。..........................1.2 本文主要研究工作一个完整的中文问答系统主要包括问题分析模块、信息检索模块和答案抽取模块。在本研究中,本文只关注于问题分析模块和答案抽取模块。其中问题分析模块主要包括问题分类、主题焦点分析和问题扩展三个部分,而答案抽取模块包括候选答案评分、候选答案排序和候选答案提取三个部分。本文中文问答系统问题分析与答案抽取研究的总体框架图如图1-1所示。中文问答系统首先对用户输入的问题进行预处理,将问题中一些语气词、标点符号等停用词进行删除,然后将处理后的问题信息传递到问题分析模块。在问题分析模块中,首先使用主题模型对问题进行细粒度分类,从而获得用户所提问题的隐式类别主题和问题焦点信息。由于用户所提问题与答案中所使用关键词或术语存在可能不一致问题,因此需要使用同义词词