A SYSTEMATIC LITERATURE SURVEY FOR DETECTING RUMORS BASED ON MACHINE LEARNING AND DEEP LEARNING_rumors detection based on lifelong machine learnin-CSDN博客

本文链接：https://blog.csdn.net/qq_59482564/article/details/138218363

ABSTRACT

谣言检测被认为是社交网络分析的关键研究领域之一，对于防止社交网络中错误信息的传播至关重要。近年来已经引入了几种谣言检测技术。这些技术将问题呈现为分类问题，例如二元问题（谣言或非谣言）。这些技术大部分都基于机器学习 (ML)。这些技术的主要障碍主要与从数据集选择中提取特征相关。由于需要时间和精力，手动提取特征会影响大多数这些工作的谣言检测效率。最近应用的另一种技术是深度网络，它被建议作为简化特征提取并提供强大而卓越的学习抽象表示的能力的手段。一般来说，发现趋势谣言需要开发一个强大而灵活的模型，该模型可以捕获帖子之间的远程联系并生成不同的表示形式以进行准确的早期发现。本文的目的是通过关注机器学习和深度学习领域，展示谣言检测领域的一些经过仔细研究的工作。这些研究在文献综述部分进行了审查，从而回答了本文所讨论的研究问题。这次审查对研究人员来说意义重大且有帮助，因为它将使研究人员能够将他们的工作与当前的工作进行比较，因为所使用的评估矩阵、数据集特征的完整描述以及他们是否应用了机器学习或通过应用深度学习模型来获取每项工作。此外，该评论还将讨论该领域研究人员面临的挑战，并提出一些进一步研究的潜在途径。

关键词：谣言检测、谣言追踪、深度学习、机器学习、社交媒体分析

1 INTRODUCTION

社交媒体的用户有能力生成大量信息，无论是真实的还是误导性的，这些信息都会影响到数百万其他用户。虚假信息最近被用作信息战的武器。如何高效、有效地检测社交媒体上的不正确内容成为一个难题。因此，在有害谣言严重影响人们的生活之前识别和压制它们至关重要。

根据 Pathak 等人的定义。在[1]中，谣言是真实性高度可疑的信息。然而，谣言可能是真的，也可能是假的，还有一些可能尚未得到证实。并非所有虚假信息都被视为谣言。错误信息也指个人诚实、真诚地犯下的错误。其他的可能是恶意故意传播的谣言，目的是欺骗那些不相信它们的人。这些内容被归类为虚假新闻，并根据始发者的意图进行分类。

谣言检测通常被认为是一个四步过程。该过程的第一阶段首先从各种社交媒体平台收集信息。需要将获取的数据转换为一致的组织格式，以便提取必要的功能。预处理任务包括合并、清理、转换和缩减。然后提取重要特征（例如基于内容的、实用的和网络特定的特征），并使用各种机器学习或深度学习算法将数据集分类为谣言或非谣言。

根据Cao等人[2]的研究，大多数自动谣言检测系统将谣言检测默认视为二元分类任务，可以使用以下范例之一进行分类：

具体来说，基于手工制作特征的机器学习 (ML) 范式：为了解释谣言如何在高维空间中传播，他们采用了手工制作的特征。特征工程是这些技术的基本先决条件之一。根据用于区分超平面的分类器，这些技术从文本和视觉材料中提取特征。 [3][4]。

网络范式：该方法通过将各种异构结构的社交网络特征（例如关注者数量、内容响应、时间戳等）与基于最佳图的算法相结合来评估网络的可信度和合法性[4][5 ]。

深度学习（DL）范式：为了自动聚合和学习多模态属性，应用了深度学习。虽然深度学习和机器学习都基于从数据中学习，但机器学习使用手工制作的特征，而深度学习范式允许分类器在训练期间正确学习和获取所需的特征，从而消除了特征提取活动的需要。随着特征提取阶段的结束，深度学习的性能在范式中得到了显着提高。

本研究介绍了机器学习和深度学习领域的各种经过深入研究的著作，并利用该汇编给出了识别机器和深度学习的全面策略。支持向量机 (SVM)、逻辑回归 (LR)、伯努利朴素贝叶斯 (BNB)、SGD 分类器 (SGD)、K 最近邻 (KNN) 和决策树均用作机器学习方法 (J48)。还使用了随机森林（RF）、AdaBoost（Ada）和装袋（Bag）等集成机器技术。描述了许多深度学习方法，例如卷积神经网络（CNN）、循环神经网络（RNN）、偏差纠错树（BERT）等。然后，我们的系统综述深入分析了这些论文，以解决我们指定的六个研究目标，以全面了解使用机器学习和深度学习技术进行谣言检测的当前技术水平。此外，我们的系统综述详细介绍了该领域研究人员遇到的问题和障碍，并提出了令人兴奋的新研究途径。该领域的研究人员会发现我们的研究很有用，因为它提供了性能矩阵、数据集特征以及每项工作所使用的模型的全面描述，可以更轻松地与当前的工作进行比较。我们的分析还将帮助科学家找到带注释的数据集，这些数据集可以作为测试平台，根据行业标准评估他们自己的方法。

本文的其余部分组织如下：第 4 节提供了与我们的文献调查相关的研究调查。第 5 节介绍了详细的文献综述方法以及对所考虑的研究的分析。第 6 节详细研究了谣言检测中使用的各种 ML 和 DL 架构。第 7 节讨论了我们的调查提出的挑战和未解决的问题。最后，第8节将给出论文的结论。

2 RELATED SURVEY STUDIES

许多研究都仔细研究了谣言的特征。一些研究人员从各个方面研究了社交媒体中的谣言检测。 Zubiaga 等人的评论论文。 [6]总结了社交媒体谣言和各种检测技术的研究，而对深度学习算法的关注较少。 [2] 的作者将之前的研究结果分为三个主要范式：（i）基于机器学习的方法，其中特征提取是开发可靠的分类算法的主要也是最重要的步骤； (ii) 基于传播的方法，其中挖掘实体之间的关系观察谣言； (iii) 基于神经网络的方法。

在 2018 年的研究中，Kumar 和 Shah [7] 强调了行为者传播虚假信息的方式以及创建识别虚假信息的算法的方法。 Zhou 和 Zafarani [8] 识别了假新闻的一些潜在特征，同时也使用深度学习方法来识别假新闻。 AlSarem 仅使用 DL 方法对 Twitter 和微博等微博平台上的谣言检测文献进行了全面分析 [9]。伊斯兰，Md. Rafiqul，等人。 [10] 在他们的调查文章中使用深度学习技术对 (i) 不正确信息、(ii) 谣言、(iii) 垃圾邮件、(iv) 假新闻和 (v) 虚假信息进行了彻底的自动化错误信息检测。 Mridha [11] 通过对深度学习技术的调查，讨论了假新闻识别中的重要评估指标。

本文将详细回顾使用 ML 和 DL 算法进行谣言识别的最重要的研究。上述调查还将重点关注其他研究已经研究过的开放数据集。

总之，已发表的大多数研究总体上侧重于谣言检测，而不是关注 ML 和 DL 在谣言检测中的潜在应用。现有的社交媒体谣言识别研究如表1所示。

本文主要关注使用机器学习和深度学习方法来检测谣言。遵循 SLR 方法。

3 REVIEW METHODOLOGY

在本次调查中，我们利用并遵循[12]中提供的系统审查方法。本节将分为四个主要小节：第一小节将讨论审查方案计划，第二小节将讨论研究问题，第三小节将讨论信息来源，第四小节将讨论选择标准。

3.1 Systematic Review Protocol Planning

第一步，我们列出了审查所使用的方法，并提供了明确的工作计划。我们首先从几个图书馆和数据库中选择研究成果。此后，根据纳入和排除的标准，减少了入选和选定研究的数量。然后，应制定有关审查问题的决定，以开展和开展建议的研究。

3.2 Review Questions

拟议的审查问题的目标之一是深入分析 ML 和 DL 应用程序为谣言检测系统提供的优势。此外，它还列出了当前用于执行谣言检测的公共数据集以及用于分析谣言检测性能的所有可能的评估矩阵技术。

RQ1：过去五年中出版物的发行方式和类型是什么？

RQ2：哪些数据集最常用于谣言分析？

RQ3：最常用于检测谣言的机器学习技术是什么？这些技术中哪一项达到了最高性能？

RQ4：用于检测谣言的深度学习技术有哪些？这些技术中哪一项达到了最高性能？

RQ5：哪些评估矩阵技术主要用于分析谣言检测性能？

RQ6：谣言检测领域的主要挑战和潜在方向是什么？

3.3 Source of Information

我们选择了多个图书馆来进行系统的文献综述，包括：

使用了许多关键字来搜索所有适当的论文“谣言检测”或“虚假信息”：

“机器学习”或“[任何机器学习技术的名称]”“深度学习”、“深度神经网络”或[任何深度学习方法的名称]。

搜索过程之后，生成的论文包括谣言检测和深度学习或谣言检测和机器学习。仅当其他已确定的数字图书馆无法找到论文时，我们才会通过 Google Scholar 收录论文。

此外，我们仅限于在 Twitter 和新浪微博等其他微博网站上发布的内容。此外，如果一项研究出现在多种期刊或会议记录中，则将提供最全面的研究版本。

关于排除标准，我们排除了所有与已确定问题无关的研究，以及 2018 年之前发表的任何重复作品或较旧的作品。

3.4 Selection Criteria

在谣言检测领域有很多调查，并且建立了一套严格的标准，以便为我们的调查选择最相关的研究。对于这些标准，既有包含要求也有排除要求。我们将 2018-2021 年纳入纳入标准。图 1 描绘了 ML 和 DL 领域社交网络分析领域当前趋势的全球比较。与 DL 的使用相比（图 1 中以黄色显示），可以观察到使用经典 ML 方法更为普遍，图 1 中的红线

图 1：从 Google 趋势中提取的机器学习与深度学习

3.5 Analysis of Related Studies

关于本节，我们将查找、回顾、评估相关论文的结果，并提供之前指定问题的答案。 RQ1 的解决方案可以在表 2 中找到，该表根据出版类型、出版年份和所使用的技术对 ML 和 DL 上选定的出版物进行分类。

被引次数是衡量发表研究成果质量的重要指标。根据错误！未找到参考来源。大约 38% 的已发表研究被引用次数超过 15 次，并且拥有大量受众。最频繁的研究是Guo, H.（2018）的论文，被引用131次，Ma, J.（2019）的研究位居第二，被引用115次。

3.6 Rumor Detection in ML and DL

3.6.1 Dataset

PHEME、Kaggle、Newly Emerged Rumors、Liberia - Ebola 2015 和 Credibility Corpus 等都是公开可用的数据集。在接下来的部分中，我们将特别关注上述研究中使用的数据集，以便使用 ML 和 Dl 方法跟踪谣言。

 PHEME dataset
祖比亚加等人。 [34]创建了 PHEME 公共数据集。该数据集是通过使用 Twitter 流 API 抓取推文而从 Twitter 中导出的。此外，还包括在突发新闻中发送的谣言和非谣言推文。作者采用了被认为是立场识别基准的PHEME数据集，以测试谣言检测任务的几种方法。在[24]中，他们进行了许多实验，包括可公开访问的数据集 PHEME，以找出所提出的 CNN 模型的最佳超参数值。 [30]使用了两个数据集，PHEME，包含 1,123 个谣言和 1,123 个非谣言，该数据集是根据 5 条突发新闻收集的，因此它声称比 TWITTER 重叠更多，后者是根据 snopes 上发布的 498 个非谣言和 494 个谣言收集的。 com. [31]数据集包含5,802个讨论样本，其中1,972个是谣言样本，3,830个是非谣言样本。

Twitter and Weibo dataset

一群学者更喜欢创建和收集自己的数据集，而不是使用公开的数据集。研究人员可以通过API获取主要是Twitter、新浪微博等社交网站的样本数据。

在没有任何事先准备的情况下：[13]和[17]使用了可用的ArCOV-19数据集，其中包括有关COVID-19大流行的阿拉伯推文，涵盖2020年1月27日至5月30日的同一时期。收集的推文总数为减少到 3157 条推文，其中包括 1480 条谣言（46.87%）和 1677 条非谣言（53.12%），而[18]从 1 月 1 日开始的四个月内，使用 Twitter 流应用程序接口和 Tweepy Python 库收集了大量重要的阿拉伯推文， 2020 年到 2020 年 4 月 30 日，包含超过 4,514,136 百万条推文 [21] 也一直在使用 Tweepy 实时流式传输推文。

他们总共有 130 个样本，为 [16] 创建了自己的数据集。可以在 Twitter、Facebook 和大量新闻报道上找到的基本问题作为样本的基础。

或出于培训目的，[19]的管理员提供来自 Twitter 的数据；他们选择了 400 条火腿消息和 100 条垃圾推文。总共选择了 200 条消息进行测试。所选数据集存储为文本文件。谈到[20]，开发了一个名为健康关联谣言数据集（HRRD）的数据集，该数据集编译了有关癌症治疗/疾病谣言的推文。使用 Twitter 的流 API，[23] 编制了涵盖 2020 年 1 月 15 日至 4 月 15 日三个月期间的推文数据集。从推文总数中识别并分类了总共 121,950 条可信推文和 287,534 条不可信推文。 [33] 中的工作使用了谣言事件 (498) 和非谣言事件 (493) 的 Twitter 数据集。 [29]利用了 Ma 等人的观点。公众的 Twitter 数据集，其中包括 992 个不同的已识别群体。 [26]和[33]利用微博数据进行了研究。该数据集包含 2313 个谣言和 2351 个非谣言样本，每个样本包含不同类型的数据。在[27]中，他们提出了一个关于谣言传播和谣言反驳传播分析的优秀研究工具。收集的数据量为 3999 名微博用户的 38365 条微博（有效 3793 条）。 [28]是从由谣言和非谣言标记的推文组成的 Twitter 数据中公开获得的。实验中使用了18571个数据。

 Kaggle

该数据集以 CSV 格式提供，包括三个文件，每个文件都包含 Snopes.com、Emergent.info 和 Politifact.com 上独立引用的网站列表。 [32] 中的工作从可公开访问的 Kaggle 数据集中获得了业务评论。

 News articles dataset

说到[14]，它使用了两个数据集，其中一个是根据来自值得信赖的在线报纸网站的大量新闻文章手动编译的。然后，他们提取这些数据并将其作为列存储在 CSV 文件中。

 Others

另一个数据集是从 Facebook、WhatsApp、boom.live 等几个社交媒体平台收集的，并以与之前使用事实数据相同的方式手动提取。在[22]中，实验中使用的数据集主要有三个来源。通过爬虫工具、或者通过互联网、微博平台从微博收集的数据。 [15] 收集了社交媒体上出现的有关 COVID-19 主题的真实新闻和虚假声明。虚假声明是从 Politifact1、NewsChecker2、Boomlive3 等各种事实核查网站以及 Googlefactcheck-explorer4 和 IFCN chatbot5 等工具收集的。真实新闻是使用经过验证的 Twitter 句柄从 Twitter 收集的。[25]从中国平台获得的手工制作的 COVID-19 数据集，包含 3737 个谣言相关数据。

 Summarizing dataset research studies

为了回答问题 RQ2，上面的部分提供了有关广泛用于进行谣言检测任务的现有数据集的详细信息。

图 2：对数据集类型分布的深思熟虑的研究表明，(63%) 一些研究人员更喜欢可用的公共数据集或通过抓取 Twitter 或微博微博来创建自己的数据集。 17% 的案例使用谣言跟踪网站，12% 的研究人员使用公共 PHEME 数据集，4% 的研究建议使用新闻文章数据集和 Kaggle 数据集。

本节的目标是回答研究问题 RQ3 和 RQ4。我们将首先解释为什么机器学习用于谣言检测。另一方面，我们确定了深度学习和传统机器学习之间的主要区别。此外，我们还将讨论用于谣言检测的 ML 和 DL 方法的分布。

3.6.2 Machine Learning and Deep Learning Technique

 Purpose of Machine Learning

基于机器学习的技术已成为社交媒体上谣言检测的可行方法之一。介绍了一种最新技术，描述了监督机器学习 (ML) 算法在社交媒体谣言检测领域的使用。最流行的机器学习技术是 SVM、朴素贝叶斯和决策树。还使用了 KNN、聚类、朴素贝叶斯、随机森林、逻辑朴素贝叶斯、自然语言处理、社交垃圾邮件分析和检测框架等技术。

 Purpose of Deep Learning

深度学习提供了具有许多处理层的计算性能，这将允许学习具有多个处理层的数据表示，不包括任何特征工程[36]。另一方面，机器学习分类器依赖于特征工程，这通常是劳动力和时间密集型的。研究团队越来越有兴趣使用深度学习进行谣言检测，以减少对专业功能的需求。此外，深度学习可以比传统的机器学习方法找到更多相关的隐藏特征[37]。

 Machine learning-based Rumor Detection

为了回答 RQ3，我们将首先回顾研究中使用的 ML 技术的架构、工具和性能指标。分析研究中报告的用于谣言检测的机器学习方法编译于表 4 包括所使用的工具和框架以及使用机器学习方法后应用的评估结果。

在 12 篇研究论文中，其中 5 篇提出了谣言检测模型。 [21] 创建了一个自动化系统，该系统使用许多医学关键词，这些关键词将通过使用维基百科 API 自动更新，以提供与健康领域相关的实时 Twitter 数据 [22] 应用依赖朴素贝叶斯和 NLP 的谣言检测模型来微博谣言检测数据量。使用监督机器学习分类器，[32]创建了一个自动化系统来检测在线商业评论中的商业谣言。 [23]提出了一种基于集成学习的方法来评估大量推文的有效性。 [16]开发了一个网络搜索引擎错误信息通知扩展（SEMiNExt），它将机器学习和自然语言处理（NLP）结合到这个新提出的扩展中。

在 12 项研究中，有 5 项建议对各种 ML 分类器进行比较。为了对垃圾邮件进行分类，[19]比较了逻辑回归和朴素贝叶斯算法。他们还提出了一种利用朴素贝叶斯算法来阻止特定节点组的方法，以便识别 Twitter 上的垃圾邮件发送者并立即结束这些谣言。 [28]应用了比较来选择最佳技术来增强谣言检测问题，这些技术是 OneR（一条规则）、朴素贝叶斯、ZeroR、JRip、随机森林、顺序最小优化和 Hoeffding 树方法。还给出了全面的评估。极限梯度提升（XGBoost）、随机森林（RF）和逻辑回归（LR）是[27]研究和对比的四种机器学习技术。 [14] 使用一种深度学习机制测试了各种机器学习方法（他们将多层神经方法与训练环境中的三个独特层相结合）（逻辑回归、K 最近邻、随机森林和支持向量机）。 [15] 应用 10,700 个社交媒体帖子的手动注释数据集以及有关 COVID-19 的真实和误导性新闻的研究，检查了决策树、逻辑回归、梯度提升和支持向量机的性能。

两项研究使用了阿拉伯语数据。 [20]利用阿拉伯语社交媒体开发了自己的数据集。 [13] 制定了一项深入的提案，涵盖两个阶段：使用 Arcov-19 数据集进行检测和跟踪。

 Deep learning-based rumor detection

为了回答 RQ4，我们首先回顾研究中使用的 DL 技术的架构、库、工具和性能指标。

表 5 总结了在研究中发现的谣言检测领域提出的深度学习技术。它还识别并采用所使用的框架、工具和库，以及采用 DL 方法后实现的性能。

- 五项研究提出了谣言检测模型。对于[29]中的谣言识别，他们建议结合 CNN 和注意力残差网络来捕获长程依赖性。卷积 DL CNN 架构是[31]中提出的模型的基础。然后，他们将结果与当前使用的基于深度学习和机器学习的谣言检测方法的结果进行了比较。 [17] 中提出了一种新颖的深度混合学习模型，用于检测社交媒体上与 COVID-19 相关的谣言，该模型依赖于串联并行卷积神经网络和长短期记忆（LSTM-PCNN）。预训练的 BERT 模型已与 [25] 中的 TextCNN 和 TextRNN 模型相结合。对于谣言检测，[33]提出了一种具有社会关注度的分层 LSTM 网络。

- 在[18]中，论文重点关注特征表示，他们比较了 word2vec 和 FASTTEXT 在 ML 和 DL 技术上的性能，以自动识别与 COVID 相关的阿拉伯语错误信息。

3.6.3 Rumor Detection Evaluation Matrix

为了回答 RQ5，我们应该首先回顾主要用于分析谣言检测性能的评估矩阵的不同技术，然后阐述在研究中发现的谣言检测领域提出的 ML 和 DL 评估技术。

 Evaluation Matrices

对于分类问题，我们应该准备各种评估指标来分析分类算法。包括混淆矩阵、精度、召回率、准确率、F 度量和 ROC 曲线下面积 (AUC)。

- Confusion Matrix

两类分类问题的混淆矩阵如图 3 所示。根据该图，结果可能有四种不同的预测。无论真阳性结果还是真阴性结果都是正确的分类，但是假阳性和假阴性结果会导致两种类型的错误。假正例是指被错误地分类为正例的负类，假负例是指被错误地分类为负例的正类。 Kohavi 和 Provost [38] 3 将我们研究进入混淆矩阵的背景定义如下：

(a) 代表正确的负面预测数量，(b) 正确的正面预测数量，(c) 正确的负面预测数量，(d) 正确的正面预测数量。

- 精度它可以被视为和描述为发生的正确预测的正类的分数，也可以通过模型提供的准确输出的数量来查看。可以通过应用下面的公式来观察：

Precision= TP/TP+FP

它是我们的模型正确预测的阳性类别总数的百分比。

- 召回率

召回率计算如下，召回率应尽可能高。

Recall= TP/TP+FN

- Accuracy

在评估分类任务的准确性时，它被认为是最重要的问题之一。这显示了模型如何经常正确预测结果。它可以计算为分类器的预测总数与其正确预测的数量的比率。公式如下：

- F-measure

比较两个精度低但召回率高的模型具有挑战性，反之亦然。接下来，可以使用 F 分数来解决此问题。这个分数使我们能够同时评估召回率和精确率。当查全率和查准率相等时，F 分数最高。可以使用以下公式计算：

- 接受者操作特征曲线（ROC曲线）

ROC 是一个图表，显示并说明了分类器在所有可能阈值上的性能。图表描绘了真阳性率（在 Y 轴上）和假阳性率（在 X 轴上）。

 相关研究中的 ML 和 DL 评估矩阵

说到机器学习论文，[13]、[15]、[19]、[20]、[21]、[27] 和 [32] 在其出版物中使用了精度、召回率、F-1 分数和准确性。 [14]使用F1评分措施。在[16]中，他们使用混淆矩阵表来直观地展示算法的性能并提供见解。在确定系统模型是否有效时，[22] 会考虑指标值以及 F 1-Score（召回率和准确率的加权平均值）。此外，还应用了 ROC 曲线，其两个数轴是真阳性率和假阳性率。在[23]中，他们通过计算每个模型的平均准确度和标准差来计算 1-sigma 误差。他们使用精度、召回率、F 测量、准确度、ROC 面积和精度-召回曲线 (PRC) 面积测量来比较 [28] 中的算法。

关于深度学习论文，[17]、[24]、[25]、[26]、[30]和[33]中用于创建所有这些度量的评估矩阵是准确度、精确度、召回率和 F 分数。 [31]考虑了称为 F1 分数的评估指标。 [18]包括 ROC 曲线下面积 (AUC)、精度、召回率和 F1 等评估指标。在[29]中，他们使用 Accuracy、Precision 和 F1 Score 来评估模型在各个方面的性能。

4 CHALLENGES AND OPEN ISSUES

本节通过强调未解决的问题来回答 RQ6 问题，该问题除了谣言检测领域提出的挑战之外，还涉及未来的主要方向。

4.1 Rumor Detection Problems and Obstacles

在研究和检查社交媒体网络上谣言检测的材料时，学术研究人员面临着许多挑战。

我们将讨论使用社交媒体数据的学者面临的一些挑战。

A。应用主题标签和关键字的方式来查找有关特定主题的推文并不能保证所有相关的基于关键字的查询和主题标签，因此，数据集将会有偏差。

b.快速准确的检测有助于限制谣言的传播并减轻其对社会的负面影响。结果，数据集与源头检测相关的信息必须实时采集

C。跨链接社交网络的源识别和跟踪。许多社交网站（包括 Facebook、Twitter 等）为用户提供帐户。人们使用的各种社交网络有时会被用来传播谣言。

d.数据检索如果使用不同的关键字或主题标签访问不同的数据，则需要额外的数据准备和转换，包括格式转换和过滤掉不相关的数据。此外，获取用我们使用的特定语言编写的数据被认为是巨大的问题之一。

4.2 FUTURE PATH AND DIRECTIONS

由于机器学习和深度学习都是很有前景的谣言检测技术，因此研究人员在选择最佳架构时应注意并谨慎行事。以下建议提供了有关回答研究问题 RQ6 的信息：

 可链接或互连社交网络的开发以及可链接社交网络中真实来源的发现可能被视为一个广泛且具有挑战性的领域，需要进一步研究。

 大多数研究仅依赖于文本元素。当处理视频和图像等视觉格式时，最好使用深度学习。

 该数据集是使用之前被识别为与谣言相关的关键字收集的。大多数时候，检索的数据仅以实际运行的查询的语言编写。因此，今后密切关注用其他语言编写的谣言至关重要。

 敦促研究人员尽可能具体地说明他们使用的工具和获得的评估绩效矩阵。科学界将能够重现这些发现，并在这一过程中实现更多的发展。

5 CONCLUSION

事实证明，谣言的传播对社会极其不安全。因此，我们应该想办法消除这些谣言。机器学习（ML）和深度学习（DL）在谣言检测领域取得了巨大成功。已经提出了几种基于 ML 和 DL 的方法用于社交网络上的谣言检测。本文提出了六个审查问题：过去五年内发行的出版物类型；最常用的数据集；机器学习和深度学习技术及其性能；评价矩阵技术主要用于谣言分析；最后，谣言检测领域面临的挑战和潜在方向。为了回答这些评论问题，我们使用 ML 和 DL 领域的 21 篇已发表论文进行了研究。具体来说，我们根据方法、性能评估、工具和架构对深度学习和机器学习进行了比较。我们还根据数据集的类型、来源和内容提供了数据集的原理。最后，我们强调了谣言检测研究的挑战和未来方向