关于在线评论有用性的论文研读笔记---11-20篇

目录

11.基于多模态数据语义融合的旅游在线评论有用性识别研究(情报学报)

12.基于内容特征的评论效用排名预测——以豆瓣书评为例(管理评论)

13.面向用户信息需求的移动O2O在线评论有用性排序模型研究——以美团为例(图书情报工作)

14.复杂网络视角下在线健康社区评论有用性研究(情报科学)

15.管理者回复对在线评论与有用性关系的调节效应:基于TripAdvisor的实证研究(管理工程学报)

16.基于机器学习的网络评论信息有用性预测模型研究(情报科学)

17.影响在线评论有用性的因素研究(管理评论)

18.评分不一致性对在线评论有用性的影响——归因理论的视角(中国管理科学)

19.基于产品评论挖掘的消费者偏好分析(情报科学)

20.基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用(系统工程学报)


11.基于多模态数据语义融合的旅游在线评论有用性识别研究(情报学报)

        我之前看的文章做在线评论领域方面的研究,都是基于评论文本去提取特征的,例如通过文本的长度、文本的情感、文本星级等等特征,在考虑多模态数据的层面上,大部分研究者都是通过评论是否包含图片或者包含图片的数量来作为一个特征加入模型,这种做法的前提假设是,只要评论里面包含了图片就是有用的,但是这种假设未必成立,我作为一个蹭好评返现无下限的人,为了凑评论的图片直接从表情包中拉一张图片加入到在线评论中,图片与商品毫无关联,对于其他消费者来说也毫无价值。在图片识别领域,相关的图像识别技术已经发展的相当成熟,因此可以考虑利用图像识别的方法去识别图像,将图像识别的结果作为一个新变量加入到模型中参与训练。

        这篇文章用同程旅行网旅游产品的评论数据进行分析,使用机器学习和深度学习的方法来构建评论有用性分类模型,与之前文章的提取评论长度等特征进行结构化的机器学习相比,这篇文章利用BERT模型将整段文本的文本向量提取出来,结果会更加准确。

 

        同时利用ImageAI来识别评论图片的标签,先将识别结果中可能性最高的五个标签提取出来,将识别出来的标签转换为与文本相同维度的词向量,然后合并到文本词向量中去,同时在维度问题上进行限制和填补。然后采用TextCNN和Bi-LSTM两个神经网络模型去对模型进行学习。文章还采取了传统的SVM等机器学习模型进行学习,这里我涉及到一个维度的问题,文章没有明说,我觉得坐着应该是将数据变量全部ravel之后然后再丢到模型中。整篇文章提取的特征并不多,只提取了文本特征和图片特征来进行对比分析。

        文章结果表明利用BERT提取的词向量进行模型训练,F1-score比其他方法更好。

 

        这篇文章我觉得还是很有意义的,首先在文本的训练上结合了BERT的方法,提取的词向量效果会更好(做了对比试验),同时还提取了图片的标签加入到训练中去,比较有创新性。后面研究可以思考的问题是怎么把bert和图片识别的结果加入到传统的机器学习模型中去。

12.基于内容特征的评论效用排名预测——以豆瓣书评为例(管理评论)

        从文章标题可以看出这是一篇评论排序的论文,文章以双路径模型作为分析的框架(该理论从中枢路径和边缘路径的视角解释信息对信息接收者态度及行为产生影响的机理。中枢路径上,接受者经过对信息的精密思考形成认知判断;边缘路径上,则依据简单线索进行决策)

        文章提出来了一堆自变量来进行模型预测:总词数、总句数,总段落数等等,其中有创新性的是文本主观度均值和文本主观度方差的统计量的提出:

        公式的意思是一个文本有许多个句子,每个句子都有一定的主观性,然后将整个文本的句子的主观度求个均值,就代表了文本的主观度平均水平,方差同理,这里文章直接运用了逻辑回归算法,感觉工作量挺大哦,又要打一大堆标签,人吐了,还有再回代。

        提取了数据特征之后就要进行分析,首先是模型参数的调整,GridSearch直接冲,参数调完之后就是逐步引入特征,看看特征对模型训练效果的影响,这一步可以看出哪些特征对于识别评论有用性是重要的,同时文章还比较创新,引入了Boruta特征重要度计算算法,量化了特征的重要度。

        文章爬取的评论数据不多,因此可以直接对整个数据打标签,然后直接训练,最后他用了个wilcoxon的统计量来验证预测排名和实际排名的一致性。

        总结一下这篇文章的收获,首先就是自变量特征方面:词性计数特征、文本主观度特征都可以尝试去提取,在模型训练方面,可以考虑引入新的变量重要度算法来度量特征的重要性。

13.面向用户信息需求的移动O2O在线评论有用性排序模型研究——以美团为例(图书情报工作)

        这篇文章研究的也是评论排序的问题,在评论有用性的度量上,文章采取了以下特征:评论者权威、评论阅读者自身特性、评论长度、产品属性特征词、情感特征词、图片数量、有用性投票、评论时效性等特征。

        评论者权威可以用评论者论坛等级去度量;产品属性词则用频繁出现的名词或名词短语去获取;情感词量化则是基于词典把整个评论的情感词语数量全部统计出来;评论者自身特性就有点困难了,因为每个平台开放的数据信息是不一样的,而且也很难知道到底是谁读了评

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值