层级Transformer多文档摘要
Hierarchical Transformers for Multi-Document Summarization
段落排序-> 取top段落 -> encoder -> decoder -> summary
BART:在长文建模效果不好,主观性、事实一致性好
GPT:事实性、忠实度、一致性差。
改进:层次的多文档编码器。
检索辅助生成
REALM: Retrieval-Augmented Language Model Pre-Training
同时预训练检索器和语言模型,可以联合训练。两个模型的更新:检索用Maximum Inner Product Search MIPS; 每训练几百步异步更新索引和embedding系统。更新后的索引和embedding系统可以更好的支持模型。
1. 预训练时,使用无监督的数据MASK部分数据。先从检索器中根据MIPS检索出相关的paragraph,把句子和相关paragraph送到encoder中,预测被[MASK]的数据。 2. finetune时,使用有监督的QA数据集。先从检索器中根据MIPS检索出相关的paragraph,把句子和相关paragraph送到encoder中,预测answer。