关于QA系统的相关论文阅读
- APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK
baseline:
a text matching and selection perspective
可以被认为是一个二分类问题,对每一个问题,每一个备选回答都可以是一个二分类问题。
用一个矩阵去衡量每一个问答对的匹配度
得分最高的即可
对每一个问题都有一个答案池,这个答案池可以使用搜索引擎建立
”Google search“ “Apache Lucene”
放进正确答案,并且随机采样错误答案,池size是500.共有24981个answer
这个系统的目的性比较强,是针对潜在客户的,所以并没有闲聊功能。
model
1. 主要思想:学习问题和答案的分布向量,利用一种相似矩阵去衡量匹配度
2.baseline model
2.1 bag-of-words model
思想:
train a word embedding;
get the word vector for each token in the question and answer ;
produce the idf-weighted sum of word vectors for the question and answer;
calculate the cosine similarity
2.2 IR baseline
WD model (weighted dependency model)
打分系统
用term-based and term proximity- based ranking features的加权组合进行打分。
主要思想:问题中重要的二元语法应该有高权重当他们的频率被计算时。