论文题目:Summarizing Answers in Non-Factoid Community Question-Answering
论文地址:https://staff.fnwi.uva.nl/m.derijke/wp-content/papercite-data/pdf/song-summarizing-2017.pdf
论文发表于:WSDM 2017(CCF B类会议)
论文大体内容:
本文主要解决non-factoid的CQA(community question-answering)问题,通过改善shortness,sparsity,diversity共3大问题,提升自动文本摘要的效果。
1、Non-factoid QA(非仿真陈述类QA)上的摘要:Factoid QA是仿真陈述类QA,此类系统根据答案语料的资讯,取出一小段内容作为答案,但这样Answer是否合理,是由语料决定的。而Non-factoid QA中为了回答一个问题(定义类、原因类、观点类等),需要从多个文档聚合答案,这就需要对文档进行摘要;本文针对的是non-factoid QA。
2、目前大部分的自动文本摘要或者QA系统,都是从语料库里面对比输入的Q与候选答案句子的相关度来生成答案的,这样做的缺点显然易见。
3、改善shortness
主要方法:document expansion。
①对answer中的每个句子,n-gram匹配wiki文章title;
②使用LexRank中Markov random walks的方法获取与每个句子最相关的3个wiki文章;
③从而得到S(源数据集的answer句子)与S’(wiki文章中的句子);
4、改善sparsity(sentence表示)
主要方法:CNN。
①训练word2vec模型;
②S与S’句子的句子向量初始化为:句子中的每个词语用word2vec的词向量串联;
③放入CNN网络中,获取倒数第二层作为生成的句子向量;
5、改善diversity
主要方法:sparse coding strategies。
①根据下面的目标函数,计算出每个句子的权重a(i);(稀疏编码的意思是很多句子的权重a(i)=0)
目标函数的意思是:生成的摘要的累计值(表示的意思)要与每个句子(包括wiki的辅助句子)都接近;
②使用MMR方法,挑选尽量不冗余的句子;
实验
6、Dataset:Yahoo! Answers data
100 non-factoid questions,361 answers,2793 answer sentences,59321 words and 275 manually generated summaries。
7、Baselines
①MaQAS;
②LexRank;
③SVM;
④CNN;
⑤BestAns;
⑥Random;
8、评测方法
①ROUGE-1;
②ROUGE-2;
③ROUGE-L;
9、结果
①所有方法结果对比;
②Document expansion的效果;
③Sentence表示的对比;
④Answer summary长度的限制;
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!