一、文章信息
作者:严炜炜 黄为 温馨
单位:武汉大学信息管理学院
期刊:图书情报工作
题目:学术社交网络问答质量智能评价与服务优化研究
二、背景、目的、结论
背景:社会化媒体的普及和繁荣促使越来越多的学者利 用社会化媒体获取和分享学术信息,因此也催生了 专门针对学者设计的学术社交网络平台,如 Academia、 ResearchGate( RG) 等。
目的:学术社交网络所提供的问答服务已成为学者们快速获取学术信息、解决学术问题的重要途径,实现 基于机器学习的问答质量智能评价和服务优化对学术社交网络中优质内容传播具有重要意义。
结论:SMOTE 算法在处理不平衡样 本时具备有效性; 支持向量机在单一模型预测中,取得出色的分类效果; 组合模型使预测精度得到进一步提升,基 于随机森林、支持向量机、BP 神经网络构建的组合模型分类性能最佳,以此为基础可通过搭建问答质量智能评价 系统实现学术社交网络问答服务优化。
三、结果与讨论
本研究以RG 为对象,在构建答案质量评价体系和自动化评价模型的基础之上,开展基于问答质量智能评价的学术社交网络问答服务优化实证研究。采用机器学习方法实现 RG 平台的问答质量智 能评价。
研究框架如下
选取研究 已证实会对答案质量产生影响的评价指标构建出初步 的评价体系,包含答案结构化特征、答案内容特征以及 答案其他特征 3 个维度指标,并进一步针对 RG 平台 的功能特点对回答者特征维度指标进行补充,构建 完整的 RG 答案质量评价体系 。
后选择 ID3 作为基 线预测模型 ,选择 RF 和 SVM 作为 分类预测模型,选用 BP 作为分类模型。
4 种分类模型 的性能表现如下
对比上述结果可以发现,4种模型在对RG问答服务的答案质量进行分类预测时,皆出现分类结果向多数类偏移的不平衡分类问题(即分类器趋向于提供一个严重不平衡的精确度,多数类的精确度高,而少数类的精确度却十分低),从而导致预测失败,无法得到准确的结果,模型不具备检测出高质量的答案的能力(查准率、查全率和F1-score均偏低)。
随后通过SMOTE算法平衡后重新对模型进行分析,,4 种模型对高质量答案分类的 查准率、查全率都有较大提升,能够满足高质量答案 筛选的需求。
但,ID3决策树的性能表现相比于其他几类算法较差;随机森林和BP神经网络的性能较好且较为接近; SVM模型的表现最佳,其性能明显优于其他分类算法,有着最高的查准率、查全率和F1 -score。
最后通过模型组合进行预测,发现预测效果 较单一模型预测有明显提升 。由此可见,借助组合思想构建组合 式答案质量预测模型在实现高质量答案筛选时具备有 效性,可将组合模型应用于学术社交网络问答质量的 智能评价之中。其中基 于随机森林、支持向量机、BP 神经网络构建的组合模型分类性能最佳,以此为基础可通过搭建问答质量智能评价 系统实现学术社交网络问答服务优化 。
结论:实证研 究结果揭示了从答案结构化特征、答案内容特征、答案 其他特征、回答者特征 4 个角度筛选学术社交网络问 答服务中的优质内容( 高质量答案) 的可行性和合理 性,而通过采用机器学习方法,结合SMOTE 等数据增 强技术,并基于组合思想构建组合式答案质量预测模 型,则可有效实现高质量答案的筛选。此外,笔者还提 出了问答质量智能评价系统设计与实现的整体思路, 为 RG 以及其他学术社交网络平台优化其问答服务提 供了参考与借鉴。
四、文章好在哪里
摘要的结构十分清晰,可以有效参考。
引言和相关研究的用词以及相关研究的总分结构框架,新颖的学者和其方法的引出及介绍词汇和语句,都可以学习利用。
有完善的问答质量评价体系和框架,并且有清晰的维度指标,还给予了每个特征的获取方法,包括预处理的步骤也很明确,非常有实际参考价值。
组合模型的预测方法可以尝试,SMOTE算法也是个很棒的平衡数据集的工具。
————————————————
版权声明:本文为CSDN博主「szx6984」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/szx6984/article/details/128534786