#Paper Reading# SumView: A Web-based engine for summarizing product reviews and customer opinions

论文题目:SumView: A Web-based engine for summarizing product reviews and customer opinions
论文地址:http://www.sciencedirect.com/science/article/pii/S0957417412007865
论文发表于:Expert Systems with Applications 2012(CCF C类期刊,影响因子2.981)

论文大体内容:
本文主要使用了NMF来做文本摘要,实现了一个能够自动根据用户关心的Amazon商品的某些特点(比如prize,size,quality等),通过爬取商品评论,并生成对应的文本摘要的系统。

1、整体过程如下:
这里写图片描述

2、关注点推荐:
①过滤,使得D矩阵的terms都是名词或名词短语;
②先选20个D矩阵中tfidf值最大的terms;
③从20个terms中选出周围出现adj次数最多的top 5,这5个就是推荐给用户的常见词(size,prize等);
④用户也可以自己输入想了解的关键点,增强系统的可用性;
这里写图片描述
这里写图片描述

3、摘要过程:
①K是用户选择的feature terms个数;
②初始化U的每一列选自在D矩阵中feature term出现次数最多的句子;
③初始化V^T=(U^T*U)^(-1)*U^T*A;
④NMF
⑤每个topic选V矩阵中值最大的那个句子,作为摘要;
这里写图片描述

4、摘要去重改进
基本思想就是选择第C个摘要句子的时候(每个主题选一个摘要句子),从未选择句子中选出在主题下(概率值(即V矩阵的值)-句子与已选择的C-1个摘要句子的相似度平均值*λ)的最大值,通过λ控制相似度权重。(但下面的实验中并没有用上)
这里写图片描述

5、效果展示
这里写图片描述

6、效果对比
①DUC2005数据集上
这里写图片描述
②DUC2006数据集上
这里写图片描述
③人工评分
这里写图片描述

7、思考
感觉这种方式比较简单,效果也不是很理想,总体的motivation是做出一个现爬现生成摘要的系统。

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值