#Paper Reading# Summarizing Answers in Non-Factoid Community Question-Answering

论文题目:Summarizing Answers in Non-Factoid Community Question-Answering
论文地址:https://staff.fnwi.uva.nl/m.derijke/wp-content/papercite-data/pdf/song-summarizing-2017.pdf
论文发表于:WSDM 2017(CCF B类会议)

论文大体内容:
本文主要解决non-factoid的CQA(community question-answering)问题,通过改善shortness,sparsity,diversity共3大问题,提升自动文本摘要的效果。

1、Non-factoid QA(非仿真陈述类QA)上的摘要:Factoid QA是仿真陈述类QA,此类系统根据答案语料的资讯,取出一小段内容作为答案,但这样Answer是否合理,是由语料决定的。而Non-factoid QA中为了回答一个问题(定义类、原因类、观点类等),需要从多个文档聚合答案,这就需要对文档进行摘要;本文针对的是non-factoid QA。

2、目前大部分的自动文本摘要或者QA系统,都是从语料库里面对比输入的Q与候选答案句子的相关度来生成答案的,这样做的缺点显然易见。
这里写图片描述

3、改善shortness
主要方法:document expansion。
①对answer中的每个句子,n-gram匹配wiki文章title;
②使用LexRank中Markov random walks的方法获取与每个句子最相关的3个wiki文章;
③从而得到S(源数据集的answer句子)与S’(wiki文章中的句子);

4、改善sparsity(sentence表示)
主要方法:CNN。
①训练word2vec模型;
②S与S’句子的句子向量初始化为:句子中的每个词语用word2vec的词向量串联;
③放入CNN网络中,获取倒数第二层作为生成的句子向量;
这里写图片描述
这里写图片描述

5、改善diversity
主要方法:sparse coding strategies。
这里写图片描述
①根据下面的目标函数,计算出每个句子的权重a(i);(稀疏编码的意思是很多句子的权重a(i)=0)
这里写图片描述
目标函数的意思是:生成的摘要的累计值(表示的意思)要与每个句子(包括wiki的辅助句子)都接近;
这里写图片描述
②使用MMR方法,挑选尽量不冗余的句子;
这里写图片描述

实验
6、Dataset:Yahoo! Answers data
100 non-factoid questions,361 answers,2793 answer sentences,59321 words and 275 manually generated summaries。

7、Baselines
①MaQAS;
②LexRank;
③SVM;
④CNN;
⑤BestAns;
⑥Random;

8、评测方法
①ROUGE-1;
②ROUGE-2;
③ROUGE-L;

9、结果
①所有方法结果对比;
这里写图片描述
②Document expansion的效果;
这里写图片描述
③Sentence表示的对比;
这里写图片描述
④Answer summary长度的限制;
这里写图片描述

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值