问答系统
问答系统通常要求给定一段文字context,给定一个问题question,从context中寻找一段连续的文字text span作为问题的答案。对于问答系统的实验,有一个来自斯坦福的数据集比较受欢迎,名为The Stanford Question Answering Dataset,即SQuAD:SQuAD官方链接
SQuAD现在已经发展到2.0版本;
在最初的版本中,比如有以下简单的问答组合:
较早并有一定效果解决问答系统的模型是2017年在ICLR上的BiDAF(Bidirectional Attention Flow),模型没有大规模的预训练就在SQuAD上获得70%的 F1-score;
模型的架构如下:
模型计算大致过程如下:
- 首先将context与question分词得到列表 [ x ] [x] [x]和 [ q ] [q] [q],Character Embed Layer 使用卷积提取文本特征,并行地,Word Embed Layer 通过词向量将分词转换表达,然后拼接两者输出的特征作为新的词向量;
- 词向量输入Contextual Embed Layer ,实际是一个双向LSTM层,Context对应的LSTM输出张量为 h h h,Question对应的LSTM输出张量为 u u u;
- 像Seq2Seq中的处理,将 h h h与 u u u输入Attention层,模型的Attention有两个,一个是每个问题分词对应所有文本分词的Attention,另一个是每个文本分词对应所有问题分词的Attention;
- Modeling Layer 将Attention的输出进行拼接,输入到双层双向LSTM中进一步提取特征信息,获得 C o n t e x t L e n ContextLen ContextLen个词向量,对每个词向量进行全连接网络分类,判断哪个词最有可能是答案text span的开始(start);预测到start后,将start对应的词向量结合Context的词向量,使用LSTM与全连接网络进行分类,预测答案的结束(end),由此可获得答案。
文本摘要系统
文本摘要,其目的是给定一段长的原文,生成一段较短的摘要,比如有原文:
生成摘要:
以上摘要是由模型Summarization with Pointer-Generator Networks生成的,文本摘要的常用解决方法分两种,一种是抽取式:
- 在原文中抽取一些句子,组合成摘要;
另一种是生成式:
- 直接在原文上使用Seq2Seq模型生成摘要;生成式能够获得原文深层的信息,更符合人类的思考过程;
Summarization with Pointer-Generator Networks结合了抽取与生成的方法,让模型在原文上获得更好的摘要;模型架构如下:
网络和普通的Seq2Seq结合Attention结构一致,额外增加了一个分支用于从输入文本中抽取分词,普通的Seq2Seq结合Attention直接从词汇表中选择分词(即生成式),Summarization with Pointer-Generator Networks则会设置从词汇表中抽取分词的概率为
P
g
e
n
P_{gen}
Pgen,从输入文本中抽取分词的概率为
(
1
−
P
g
e
n
)
(1-P_{gen})
(1−Pgen),通过这一设计达到了抽取与生成混合的效果;
在计算损失时,纳入了新成分,该成分主要是沿着当前摘要分词积累source text中各分词的重要程度,即确保摘要不会过度关注source text的某些分词(注意力过度放在某些分词上会导致摘要不能概括全文,只得到一部分见解);
大规模预训练语言模型 ELMo
ELMo实际上是从一个预训练的两层双向LSTM语言模型得来:
模型的训练即语言模型的训练,根据句子的前部分词,预测下一个词;
经过预训练后,对于输入数据的各个分词,计算其在双层双向LSTM中的输出(intermediate word vectors),以及原始的one-hot编码raw word vectors,将每个分词对应的这些向量进行加权求和,所有词加权后的向量即组成词向量ELMo;
可见,ELMo的基本输入单元为句子,每个词没有固定的词向量,是根据词的上下文环境来动态产生当前词的词向量,可以较好解决一词多义的问题,这与word2vec以及glove等通用词向量模型是不同的;
众多实验表明,模型在使用ELMo词向量后,在各种数据集上均获得了良好的效果提升;ELMo的效果比word2vec,glove好得多