智能问答系统实践——答案选择_问答系统中问题和答案相关性怎么判断-CSDN博客

本文链接：https://blog.csdn.net/Index_gz/article/details/69524747

本文探讨了SemEval-2015 Task3中的Answer Selection问题，重点介绍了预处理、特征提取、模型构建等步骤。通过词相似、特殊词、主题和语义特征等方法判断问题与答案的相关性。实验使用了SVM、朴素贝叶斯和决策树模型，数据集包括训练、开发和测试集。尽管效果一般，但提供了智能问答系统设计的见解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述

这个问题来自于SemEval-2015Task3: Answer Selection in Community Question Answering.

简单的说就是从一堆问题和答案中找出他们之间的相关性。

这个Task包含两个Subtasks：

1.给定一个问题和一些答案，将答案进行为3类：good/potential/bad。

2.给定一个判定问题（Yes/No/Unsure）和一些答案，判定该问题是Yes/No/Unsure。

这里主要讨论subtask1。详见：http://alt.qcri.org/semeval2015/task3/

实现框架

整体实现框架如下图所示：

简单来说，分为一下几个步骤：

1.预处理：通过一些基本的“词”级别的处理，为特征提取准备规范数据。

2.特征提取：通过对原始数据和预处理后的数据进行分析，并基于一定的假设，确定选取特征，提取特征。

3.模型构建：根据问题描述，选择学习模型，构建训练集，训练模型。

4.实验评估：构建测试集，对比各模型效果。

具体实现框架如下图所示：

接下来详细描述整个过程。

预处理

个人认为，特征选择在实现上发生在预处理之后，但实则发生在预处理前后。

根据上述问题描述，和自己的先验知识，先对该问题做了一定的假设：

假设问题和答案是有相关性的。

假设问题和好的答案相关性更大，和不好的答案相关性更小。

假设问题和各种类别（good/potential/bad）的答案在“词”的特征上，是有一定规律的。

假设问题和各种类别（good/potential/bad）的答案在语义上，是有一定规律的。

。。。（一堆假设）

特征选择

词相似特征

1.Word cosine similarity: 我们假设问题和好的答案词相似，所以设计回答和问题的词的相似度特征。构建词典，以词典顺序作为向顺序，tfidf 作为权重，统计每个回答和问题的空间向量，然后计算对应的问题和回答之间的余弦相似度。

2.NE cosine similarity：关键词通常是名词实体，我们假设问题和好的回答的关键词相近，所以我们构建了问题与回答之间的名词实体余弦。识别名词实体，构建名词实体字典。以字典为顺序，tfidf为权重，构建每个问题和答案的名词实体向量，并计算相应的余弦值。

特殊词特征

1.Special symbol feature: 我们将训练数据各个类别的答案所出现的符号经过统计分析发现，有些特殊符号比如“>..<，!:(，:(，:-(”只出现在了bad类别的答案中，而“>,<”只出现在good类别的答案中，因此我们将此作为一维特征。定义：3表示出现good类符号；2表示不出现good和bad类符号；1表示出现bad类符号。

2.Bad words feature: 我们假设某些词倾向出现在坏的答案里或者好的答案里，根据经验，这样的特征对识别坏的词有帮助。所以我们统计仅出现在 bad 的回答的词。问题中若是出现 bad的词，则这维特征记为 1，否则记为 0.