将机器学习和众包相结合,以更好地理解商品评论

作者

HetingWu1, Hailong Sun1, Yili Fang1, Kefan Hu1, Yongqing Xie1, Yangqiu Song2, Xudong Liu1

摘要

在电子商务系统中,顾客评价是理解市场对某些商品反馈的重要信息。然而,由于评论中自然语言处理和非正式描述的复杂性,准确的分析评论具有挑战性。现有的方法主要集中在研究有效的算法,这些算法不能保证评审分析的准确性。众包可以提高审查分析的准确性,同时会带来额外的成本和较低的响应时间。在这项工作中,我们将机器学习和众包结合在一起,以便更好地理解客户评论。首先,我们共同使用多个机器学习算法来预处理评审分类。其次,我们选择所有机器学习算法都不能同意的评论,并将它们分配给人类进行处理。第三,将机器学习和众包的结果汇总为最终分析结果。最后,利用实际回顾数据进行了实际实验,验证了该方法的有效性。

介绍

如今,随着越来越多的网上购物的发生,消费者提供的评级和评论被广泛地用于分析某些产品的市场反馈。评级通常采用星级的形式。例如,五颗星代表最好,一颗星代表最差。评论是一定长度的文本,可能有图片。前者通常被视为对后者进行分类的标准。然而,评级并不总能准确反映消费者的反馈。例如,用户即使不是很满意也可以给高星评级,以避免相应的客服人员的干扰。图1显示了分别使用评论和评级的不一致的客户评估,其中数据是从一家主要的中国电子商务公司jd.com获得的。数据集包含1890个手机评论和评级。图1(a)显示了基于星型评级的正、中性和负项目的百分比。图1(b)显示了评级和审查的人工分析结果,这可以被视为基本事实。因此,评审可以为理解客户的评价提供有价值的信息。
Figure 1: jd.com评级和评论结果不一致的数据集
Figure 1: jd.com评级和评论结果不一致的数据集

直截了当地说,审查分析的一个目标是了解审查是积极的、中立的还是消极的,这本质上是一个情绪分析的问题。已经有很多研究(Hu和Liu 2004;Dalal和Zaveri 2014)使用机器学习方法来分析用户评论。然而,由于自然语言处理的复杂性和评论中的噪声文本,现有方法的准确性仍然需要提高,特别是对于中性评论,我们将在实验部分展示。近年来,众包(Liu等人2012)已成功用于处理计算机算法难以处理的问题。然而,众包需要更多的成本来鼓励人们参与,低效率也是一个具有挑战性的问题。这项工作的目的是通过将机器学习算法与众包相结合来提高客户审查分析的准确性。核心问题是确定尽可能少的问题,通过众包进行处理,这对准确性、效率和成本的平衡至关重要。首先,自动复习分类分别由多个机器学习算法完成。第二,审查被选择分配给人类进行处理,在这一点上,所有机器学习算法都不一致。第三,将机器学习和众包的结果进行汇总,得到最终的分析结果。使用从jd.com获取的数据集和众包平台(http://service4all.org.cn/crowdsourcing/ratings/login.jsp) 由我们开发,我们进行了大量的实验来评估我们方法的可行性和有效性。

方法说明

如图2所示,当用户提交请求时,任务管理器(Task Manager)将对相应的产品评审进行爬取,并进行转换。然后,情绪分析模块利用机器学习和众包对数据进行处理,并将分类结果提交给结果汇总模块。
Figure 2: The workflow of review analysis
Figure 2: 评论分析的工作流

任务管理器(Task Manager)

用户提交评审分析请求后,提取相应的产品评审,生成一系列的任务,交付下一个模块。

情感分析(Sentiment Analysis)

在这个阶段,我们将机器学习与众包相结合。确定一个任务是由计算机完成还是由人群完成是一个核心问题,直接影响到结果的准确性和成本。为了正式地描述这个问题,我们将任务集表示为 T = { t 1 , . . . , t n } T= \{t_1,...,t_n\} T={t1,...,tn},将任务分为4类:正(表示为G)、中性(表示为N)、负(表示为B)和不相关(表示为I)。对于机器学习算法 f i f_i fi F = { f 1 , . . . , f n } F=\{f_1,...,f_n\} F={f1,...,fn}中, f i ( T ) = { G i , N i , B i , I i } f_i(T)=\{G_i,N_i,B_i,I_i\} fi(T)={Gi,Ni,Bi,Ii}代表它的结果集,我们的问题描述如下,是根据机器学习结果 F ( T ) = { G , N , B , I } F(T)=\{G,N,B,I\} F(T)={G,N,B,I}来确定要分配给人类的任务。

F ( T ) − ⋂ i = 1 n G i ⋃ ⋂ i = 1 n N i ⋃ ⋂ i = 1 n B i ⋃ ⋂ i = 1 n I i F(T)-\bigcap_{i=1}^{n}G_i\bigcup\bigcap_{i=1}^{n}N_i \bigcup\bigcap_{i=1}^{n}B_i\bigcup\bigcap_{i=1}^{n}I_i F(T)i=1nGii=1nNii=1nBii=1nIi

这个表达式意味着,如果所有算法返回的一个任务的结果都不相同,那么该任务将被传递给众包工人。

结果汇总

这里我们直接使用多数投票来确定众包结果,也可以使用其他聚合方法。然后将众包结果与机器学习结果相结合。

实验

实验设置

我们在JD.com上爬取9种品牌手机的9738条评论。数据集分为一个训练集(80%)和一个测试集(20%)。我们将众包结果视为根本事实。实验按以下两组进行:

  • ML:我们分别应用支持向量机(SVM)、朴素贝叶斯(NB)、K-最近邻(KNN)、自适应提升算法(AdaBoost,AB)和决策树(DT)等五种机器学习算法对评论进行分类。
  • xML+Human:x表示根据第一组实验的准确度最高x个算法的选择。当一个任务的结果被x个算法计算出来不一致时,工人的结果则被接受。众包实验由我们提到的平台进行。 我们使用F检验(F-measure)来评估他们的表现。

结果

在第一组实验中,我们计算所有五种算法的平均分类精度。精度结果降序排列结果:SVM, DT, KNN, AB和NB。SVM实现了最高精度0.817精度。第二组的实验结果显示在图3。我们也绘制了SVM的结果在图3,用ML*表示。我们可以看到,这三种混合方法的性能都优于任何单机器学习算法。在我们的方法中,人工成本随ML算法的数量而变化。随着人工成本的增加,精度也随之提高。最准确的方法是5ML+人工法,阳性、中性和阴性的F值分别为0.979、0.894和0.964。在870个众包任务中,5ML+人工方法的人工成本最高。
Figure 3: F-measure of classification results
Figure 3: F度量的分类结果

总结&未来工作

本文提出了一种机器学习与众包相结合的商品评论情绪分析方法。核心问题是尽可能减少人工任务的数量,同时保持分析的准确性。实际实验表明,该方法优于任何单机学习算法。在未来,我们将研究机器学习算法的最佳组合,以进一步减少人工任务的数量。

致谢

这项工作部分由中国973计划(2014CB340304,2015CB358800)资助,部分由中国国家级优秀博士论文(201159)和部分中央大学的基础研究基金资助。

参考文献

Dalal, M. K., and Zaveri, M. A. 2014. Opinion mining from online user reviews using fuzzy linguistic hedges. Applied Computational Intelligence and Soft Computing 2014.
Hu, M., and Liu, B. 2004. Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, 168–177. ACM.
Liu, X.; Lu, M.; Ooi, B. C.; Shen, Y.; Wu, S.; and Zhang, M. 2012. Cdas: a crowdsourcing data analytics system. Proceedings of the VLDB Endowment 5(10):1040–1051.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值