1. Question Answering 数据集
Stanford Question Answering Dataset (SQuAD): extractive question answering (抽取式,即从文章中摘取一串字符作为答案)
SQuAD数据集举例:
这里出错可能是因为算法看到"when"知道要去找时间,看到"kill"又找到了跟他相似的"destroy",于是找到了附近的1234. 但是这并不是答案。
2. 背景
通常用两步来完成用户问题在海量文本集上的回答:
- 找到可能包含答案的文章(信息检索)
- 找到文章中的答案(机器阅读理解)
3. History of Question Answering
4. 机器问答的评估
5. Stanford Attentive Reader
5.1 question embedding
- 首先,通过查GloVe-300表来把问题中的每一个词做embedding(浅黄色部分)
- 每个词的embedding作为输入,输到Bi-LSTM中;之后将Bi-LSTM的两个最后一个hidden state拼接在一起,形成Question的embedding
5.2 passage embedding