Mining and summarizing customer reviews论文总结

论文标题:Mining and summarizing customer reviews

作者:

出版源:Tenth Acm Sigkdd International Conference on Knowledge Discovery & Data Mining (2004)

截至2017/2/17 20:20 被引用量:3763

(以上信息来自百度学术)

       文章旨在通过文本挖掘来从网络上关于某些产品的客户评论中发掘产品的特征以及顾客对这些特征的情绪,进而形成产品特征的summary。

       主要过程有:

1.获取reviews,并进行文本处理

2.通过association mining 获取评论中产品的特征

3.获取顾客评论中各句子的情绪值

4.计算各特征的两类情绪的评论数量,从而形成产品特征的summary。


接下来分别详细介绍各过程:

1.获取reviews,并进行文本处理

          获取评论属于爬虫工作,不作具体介绍。关于文本处理,主要在于分词和词性标注,文章采用的是NLProcessor linguistic parser(http://www.infogistics.com/textanalysis.html)对评论进行分词和词性标注(Part-of-Speech Tagging (POS)),eg:

<S> <NG><W C='PRP' L='SS' T='w' S='Y'> I </W> </NG>
<VG> <W C='VBP'> am </W><W C='RB'> absolutely
</W></VG> <W C='IN'> in </W> <NG> <W C='NN'> awe
</W> </NG> <W C='IN'> of </W> <NG> <W C='DT'> this
</W> <W C='NN'> camera </W></NG><W C='.'> .
</W></S>


2..通过association mining 获取评论中产品的特征

这篇论文只关注那些作为名词出现在评论中的特征,例如The pictures are very clear和While light, it will not easily fit in pockets,第一句就明显有picture作为特征,而第二句泽隐含size特征,这篇论文并不包含例如第二句的隐含特征。因此本文即选取一些出现频率较高的名词或名词词组作为Frequent features。采用的方法是association mining,(Liu, B., Hsu, W., Ma, Y. 1998. Integrating Classification)基于Apriori algorithm(Agrawal, R. & Srikant, R. 1994. Fast algorithm for mining association rules. VLDB’94, 1994)
and Association Rule Mining. KDD’98, 1998.作者基于以下的假设:It is common that a customer review contains many things that are not directly related to product features. Different customers usually have different stories.However, when they comment on product features, the words that they use converge.Thus using association mining to find frequent itemsets is appropriate because those frequent itemsets are likely to be product features.即评论者的选词相近,且频繁项往往能代表特征。我们可以看到由于过程简单,因此选取到的features可能会质量不好,因此作者还分别进行Compactness pruning和Redundancy pruning。Compactness pruning是找出没有按单词顺序排列的词组,剔除出去(Hu, M., and Liu, B. 2004. Mining Opinion Features in Customer Reviews. To appear in AAAI’04, 2004.),Redundancy pruning是按features的p-support值(p-support of feature ftr is the number of sentences that ftr appears in as a noun or noun phrase)排列,剔除低于minimum p-support value(本文设置为3)的单词或词组。

以上是关于frequent features的提取,关于infrequent features的提取,定义为:当句子中含有情绪词(下一部分定义),但不含有frequnet features,则提取最近的单词作为infrequent features。infrequent features 由于可能跟产品相关性小从而带来误差,但是作者认为infrequent features占比小,并且为了完整性,应考虑infrequent features。


3.获取顾客评论中各句子的情绪值

       句子的情绪值由词语的情绪值决定,如果词语的情绪值总和为正,那么情绪为positive,如果词语的情绪值总和为负,那么情绪为negative。那么首先就是要判断各词语的情绪值,判断词语的情绪值主要通过判断评论中形容词的情绪值来确定,作者先获得评论中的形容词adjective list,然后设定30个常见形容词作为seed list(已判断好情绪值),然后根据wordNet逐步判断出adjective list中形容词的情绪值,在判断的过程中已判断的形容词会逐步加到seed list中,从而得到所有词语的情绪值。当所有词语情绪值总和为0时,作者predict the orientation using the average orientation of effective opinions or the orientation of the previous opinion sentence (recall that effective opinion is the closest opinion word for a feature in an opinion sentence。即要么用effective opinions的情绪值来替代,或者用前一个句子的情绪值替代。关于effective opinion文章并没有详细指出。


4.计算各特征的两类情绪的评论数量,从而形成产品特征的summary。

       关于这一点,主要提供最后summary的格式的例子就好:

Feature: picture
Positive: 12
• Overall this is a good camera with a really good
picture clarity.
• The pictures are absolutely amazing - the camera
captures the minutest of details.
• After nearly 800 pictures I have found that this camera
takes incredible pictures.

Negative: 2
• The pictures come out hazy if your hands shake even
for a moment during the entire process of taking a
picture.
• Focusing on a display rack about 20 feet away in a
brightly lit room during day time, pictures produced by
this camera were blurry and in a shade of orange.

 




Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值