《A group behavior prediction model based on sparse representation and complex message interactions》

2023.3.18
《A group behavior prediction model based on sparse representation and complex message interactions》阅读笔记
论文基本信息:
期刊名:《Information Sciences》
期刊级别:CCF-B、SCI-Q1(数据库/数据挖掘)
年份:2022
标题:A group behavior prediction model based on sparse representation and complex message interactions
作者及工作单位:
Qian Li, Bojian Hu, Wei Xu, Yunpeng Xiao(School of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China)
Keywords:
Social networks、Information dissemination、Sparse representation、Game theory、Rumor & anti-rumor & motivation-rumor

ABSTRACT

针对谣言传播范围广、社交网络复杂的特点,本文提出了一种基于稀疏表示和复杂消息交互的群体行为预测模型。首先,为解决谣言空间高维和复杂性给模型训练带来的困难,该模型以稀疏表示为理论基础,构建用户节点特征的稀疏向量,构建节点特征预测子模型。其次,针对谣言空间中复杂消息之间的动态交互行为,利用进化博弈知识量化复杂消息的驱动力,重构动态谣言传播网络,构建结构属性预测子模型;最后,考虑到模型融合在提高单模型泛化能力方面的优势,本模型融合了基于SRC的节点特征预测子模型和基于Node2Vec的结构属性预测子模型。同时,针对谣言传播的时效性,构建了复杂信息影响下的动态群体行为预测模型。实验结果表明,该模型不仅能有效地探索复杂消息之间的相互作用,而且能准确预测群体行为,揭示谣言传播规律。

1 Introduction

背景介绍,在线社交网络)随着大数据时代的到来,互联网已成为获取、共享和传播信息的普遍手段。互联网上的在线社交网络平台已经成为人们交流的主要工具。然而,社交网络不仅给生活带来了便利和速度,也带来了许多负面危害,比如网络谣言。网络谣言是未经证实的、具有攻击性的、有目的的信息,通过互联网媒介(如Twitter)传播。互联网的高效性使得网络谣言一旦产生,就有可能在各种社交平台上迅速、不受控制地传播,严重影响社会秩序的稳定。(研究意义此外,对于舆论而言,群体行为预测是对舆论的情境预测和感知。特别是在考虑谣言这样危害性极强的舆论时,判断谣言传播过程中的群体行为选择,对于预测和控制特定情况下的舆论具有重要意义。此外,发现谣言传播过程中群体行为背后的驱动因素也很重要。
研究意义)由于网络谣言的危害性,其迅速引起了学术界的关注,国内外学术界掀起了一波针对网络谣言的研究热潮[37,11,34,28]。通过对网络谣言进行建模,可以了解谣言的传播规律,揭示谣言传播的关键影响因素,拟合谣言的传播动态;快速应对网络舆情事件,解决舆情困境,对政府纠正谣言具有重要意义[33]。
举例,引出现存问题)在对谣言的研究过程中,我们发现热点话题的传播空间中存在多种类型的信息,如谣言、辟谣、动机-谣言等。辟谣是指有关部门通过官方媒体进行澄清和反馈。动机性谣言是指与谣言主题相关,但态度中立,既不宣扬也不反驳谣言的新闻。
image.png

图1显示了“COVID-19疫苗”热点话题中三类信息的传播情况。如图1所示,在“COVID-19疫苗致癌”谣言出现后不久,反谣言(辟谣)“COVID-19疫苗不致癌”和动机性谣言“COVID-19疫苗被广泛推广”出现。这三种信息形成了一种“谣言&反谣言&动机性谣言”的关系,在传播信息的过程中与每种类型的信息相互促进和竞争。**显然,从多种类型的复杂消息的角度研究谣言的传播可以帮助我们真正理解谣言的传播规律。**综上所述,尽管学者们在谣言传播研究方面取得了重大成果,但目前复杂消息的研究仍然存在以下问题:

  • 谣言空间的高维性和复杂性。谣言空间规模巨大,结构复杂多样。如何在不改变谣言特征空间性质的前提下,最大限度地简洁地表述,是一个难以克服的问题。这里的谣言空间是指某一特定话题在谣言话题传播周期的每个时间点上,与谣言传播相关的所有用户属性、用户行为、用户关系、多类型消息、以及影响该话题传播的消息传播路径的数据集。
  • 复杂消息交互中的动态用户结构是一个亟待解决的难题。在谣言话题的传播空间中,多种类型的消息同时存在。因此,有必要对多种类型的消息之间复杂的交互进行科学的分析。在复杂的消息交互中,如何有效地度量多种消息类型对用户结构特征的影响是一个必须考虑的问题。
  • 谣言传播的及时性和预测模型的准确性是另一个值得关注的领域。在谣言空间中,用户节点和关系网络与时间有很强的相关性(动态社交网络);不同时间点的谣言空间存在一定的差异。此外,在考虑谣言传播预测任务时,主题的输入和输出消息之间存在非线性关系。传统的谣言给定话题预测模型在处理非线性关系时存在一定的缺点,导致预测结果与真实数据差距较大,泛化能力较差。

针对以上问题,本文的解决方法)为了解决上述问题,我们构建了一个基于稀疏表示[31,30,6]和复杂消息交互的群体行为预测模型。首先,从影响用户行为的两个角度计算内部和外部驱动因素。然后,利用进化博弈论[10,3]计算多条消息的影响,并将影响整合到外部驱动因素中重构谣言传播网络。最后,利用不同预测子模型的模型融合[7,21]来预测群体行为。此外,根据时间段划分谣言的活跃时段,并分别预测每个时间段用户的参与情况,以确定
谣言的传播规律和拟合谣言话题的流行趋势。最后,利用微博数据集和Twitter数据集验证了模型的有效性。
贡献点
)本文的主要贡献如下:
采用基于稀疏表示的分类器(SRC)算法构建预测子模型。考虑到谣言空间的复杂性和高维性,采用SRC算法,利用具有先验正则性的目标函数,对谣言产生的网络空间获得有效的稀疏向量矩阵,并进行行为预测建模。
基于表示学习方法,构建了复杂消息动态网络中用户结构的预测子模型。针对谣言空间中复杂信息的动态博弈过程,基于进化博弈论量化了复杂信息的驱动力;重构谣言动态传播网络,基于网络表示学习方法构建子模型,提取动态传播网络内的用户结构特征。
构建谣言话题全特征群体行为动态预测模型。考虑到多模型融合在提高模型泛化能力方面的优势,将个体属性驱动的子模型和多条消息驱动的子模型进行融合,离散谣言话题的活跃周期,预测不同时间段的群体行为,描述谣言传播的趋势。
内容安排)本文的其余部分安排如下:第二部分介绍了本研究的相关工作。第三部分给出了必要的定义并提出了问题;第四部分详细描述了所提出的模型和相关的学习算法。第五部分采用真实数据进行实验,并对模型的实验结果进行分析。第六部分是本文的结论。

2 Related Work

在社交网络领域,用户的转发行为往往会随着好友行为的变化而变化,而多个用户的群体转发行为会影响信息的传播趋势。因此,通过研究用户的参与行为来预测信息传播是一种非常有效的方法。本节围绕上述三个问题介绍了近年来研究者的研究成果。
社交网络中数据的高维性和复杂性)首先,考虑谣言空间的高维性和复杂性。Dong等[9]针对异构网络中的结构和语义学习开发了两个表示学习模型metapath2vec和metapath2vec++(需要复习),以获得网络节点嵌入表示。Chen等[4]提出了一种任务引导和路径增强的异构网络嵌入模型来解决双盲评审设置下的作者识别问题。Huang等[13]提出了一种新颖的标签知情属性网络嵌入(LANE)框架,该框架允许将标签信息平滑地合并到属性网络嵌入中,同时保留它们的相关性。Ren等[23]提出了一个通用框架PLE,通过将实体提及、文本特征和实体类型联合嵌入到同一个低维空间中,解决实体类型化中的标签降噪问题。Xu等人探索了一种架构——跳跃知识(JK)网络,该网络灵活地利用每个节点的不同邻居范围来实现更好的结构感知表示。虽然这些研究的重点是网络嵌入表示,但这些研究忽略了表示过程和后续模型训练的复杂性。(他人研究不足)
社交网络中复杂信息的交互)其次,考虑社交网络中交互的复杂消息。Wang等[29]提出了一种有效的正负极信息在OSN中同时传播的反馈控制机制。Wan等[27]提出了一种新的竞争信息耦合扩散模型来描述在线社交网络中信息扩散的复杂过程。Yang等[36]提出了一种竞争扩散模型,即单向状态转移的线性阈值模型(LT1DT),用于模拟同一网络中两种不同类型的竞争信息传播。Li等人[16]提出了一个竞争性社会进化博弈模型来描述社交网络服务之间用户注意力的竞争。Li等[17]提出了一种基于多消息和多路网络空间的扩散模型,考虑了扩散过程中涉及的多条消息之间的相互作用和丰富的交织效应。上述研究表明,反谣言对谣言的传播有影响,但只将反谣言作为影响谣言传播的因素,而忽略了反谣言也是与谣言存在博弈关系的部分信息。这些研究没有考虑动机-谣言对谣言传播的影响。同时,在博弈论[10,3]中,Nash等人[22]证明了平衡点的存在,并使用严格的数学语言准确定义了纳什均衡的概念。McNamara等人详细讨论了博弈论方法的主要组成部分。Jiang等[15]提出了一个进化博弈论框架来模拟社会网络中的动态信息扩散过程。
话题传播的时效性,其他文章未考虑这一点)最后,在考虑话题传播模型的有效性时,Zhang等[38]通过用户的转发行为考察了大型微博网络中的社会影响力问题,重点研究了用户在自网络中的好友对转发行为的影响。为了捕捉受控信息传播的底层结构与用户转发行为之间的内在依赖关系,Chen等[5]提出了一种半监督方法,称为递归级联卷积网络(CasCN)。Tian等人提出基于卷积神经网络的转发行为预测模型,在该模型中,谣言转发行为被认为是增加谣言级联深度和广度的重要驱动力。Javed et al[14]建立了预测信息流规模和生存的模型,实验结果表明,无论是恶意推文还是良性推文,社交因素和内容因素对信息流规模和生存都具有统计学意义。Yan等[35]提出了一种转发奖励游戏模型,该模型通过添加转发机制作为奖励游戏而衍生出来,是一种简单的社交网络服务模型。Hu等[12]提出了一种基于长短期记忆的深度递归网络diffusion - lstm,学习递归预测图像通过社交网络的整个扩散路径。朱等[39]建议使用循环神经网络(RNN)对每个用户在Twitter上的发帖行为进行建模,并使用注意机制将邻居的主题相关上下文合并为用户级姿态预测的注意信号。上述研究都有效地预测了谣言的传播,但忽略了谣言传播的时效性,可以通过探索谣言传播规律来进一步完善。

3 Problem definition

3.1 Related definitions

本文的主要目的是通过用户个体因素(如用户属性、用户活动)多信息如话题信息、消息信息)影响因素对用户群体行为进行预测。相关定义如下:
Definition 1. User Attributes UserAtt( u i u_i ui) 用户属性
用户属性,包括性别、关注数量和粉丝数量,与他们在一个新兴话题上的参与的相关行为。因此,基本用户属性定义为:
image.png(1)
其中gender( u i u_i ui)为用户性别;Follows( u i u_i ui)是ui的好友数;fans( u i u_i ui)是 u i u_i ui的粉丝数。
Definition 2. User Activity UserAct( u i u_i ui) 用户活动
在真实的社交网络中,用户的活动通常反映了传播新信息的可能性。一个用户越活跃,他或她就越有可能参与谣言话题。因此,用户活动被定义为:
image.png(2)
其中Otweets( u i u_i ui)是用户 u i u_i ui的原始推文数量,Rtweets( u i u_i ui)是用户 u i u_i ui的转发数量。由于经常转发消息的用户更有可能转发新主题,通过在原始推文数量上添加一个因子来平衡原创和转发的影响,其中 μ μ μ是一个超参数, μ ∈ [ 0 , 1 ] μ∈[0,1] μ[0,1],其值为训练大量用户行为数据得到的最优解。
Definition 3. User Topic awareness UserTAwa( u i u_i ui) 用户访问主题的可能性
访问主题是用户转发消息的先决条件。因此,本文使用用户的话题意识(比如用户平均关注数)来衡量用户查看谣言消息的概率,具体定义为:
image.png(3)
其中FolNum( u i u_i ui)表示用户 u i u_i ui关注的人数, F o l N u m a v e ( u i ) FolNum_{ave}(u_i) FolNumave(ui)表示谣言传播空间中所有用户节点的平均关注人数。(采用关注人数来衡量
**Definition 4. **News Attributes NewsAtt( H i H_i Hi) 消息/新闻/谣言的属性
消息最初发布的时间、是否有标签、是否有人在消息中被提及,这些都与消息的影响力有关,而影响力又决定了用户的转发量。因此,消息的基本属性可以定义为:
image.png(4)
其中Time( H i H_i Hi)表示当前消息 H i H_i Hi第一次出现的时间,并且Tag( H i H_i Hi)为:
image.png
At( H i H_i Hi)指示消息中是否提到某人。(0 / 1
**Definition 5. **News Popularity NewsPop(t) 消息/新闻流行程度变化(独特)
随着时间的推移,社交网络中的信息往往会经历起源、流行和消亡三个阶段。大多数谣言往往会迅速上升到顶峰,然后迅速衰减,这与元素的半衰期相似。因此,本文使用半衰期函数 ( 1 / 2 ) t − t 0 w \left(1/2\right)^{\frac{t-t_0}{w}} (1/2)wtt0描述某一特定话题的谣言流行程度。具体来说,它被定义为:
image.png(5)
其中NewsFNum(t)表示在给定时间内转发的新闻总量。NewsFNum(t) - NewsFNum(t-1)表示新闻在t时刻的受欢迎程度;t表示当前时刻,t0表示新闻最初生成的时刻,w是正则化因子。

3.2 Problem formulation

为了形式化本文的问题,将当前网络谣言传播空间抽象为 G t = ( U t , E ) G^t = (U^t, E) Gt=(Ut,E),其中 U t U^t Ut是t时刻传播空间中的所有用户,E是传播空间中所有连通的边(也就是节点和边)。 D ( d , u i ) ∣ u i ∈ U D{(d,u_i)|u_i∈U} D(d,ui)uiU代表用户个人数据(包含用户属性、用户活动、用户访问主题可能性) M ( m , w k ) ∣ w k ∈ I M{(m,w_k)|w_k∈I} M(m,wk)wkI表示基本新闻数据(包含消息属性、消息受欢迎程度变化),其中 I I I是传播空间中的所有消息。在复杂的多消息交互场景中,分别基于用户属性和多消息影响在t时刻的用户数据和消息数据来预测t + 1时刻的群体行为。这就是 P U t + 1 t + 1 P_{U^{t+1}}^{t+1} PUt+1t+1,其中 U t + 1 U^{t+1} Ut+1表示时间t+1的所有用户节点。这可以表示为:
image.png(6)
例如,以“COVID-19疫苗导致癌症”为例。当话题爆发时,各种类型的新闻都与之相关,如“COVID-19疫苗不致癌”的辟谣、“COVID-19疫苗被广泛推广”的动机性谣言会相继出现。我们将谣言、辟谣和动机谣言消息数据,转发相关消息的用户属性数据,这些用户的两层好友数据,以及t时刻用户之间的关系数据输入模型。最后,我们得到了动态多类型消息交互的动态网络以及这些用户在t + 1时刻的群体行为

3.2.1 Problem input

基于以上阐述,本文解决问题所需的数据输入为:

  • 个人用户数据 D ( d , u i ) ∣ u i ∈ U D{(d,u_i)|u_i∈U} D(d,ui)uiU,其中 d d d包括UserAtt ( u i ) (u_i) (ui);UserAct ( u i ) (u_i) (ui)和UserTAwa ( u i ) (u_i) (ui)
  • 基本新闻数据 M ( m , w k ) ∣ w k ∈ I M{(m,w_k)|w_k∈I} M(m,wk)wkI,其中 m 包括NewsAtt( H i H_i Hi)和NewsPop( t t t)
  • 话题传播网络 G t = ( U t , E ) G^t = (U^t, E) Gt=(Ut,E),其中 U t U_t Ut是t时刻传播空间中的所有用户,由谣言参与者、虚假信息参与者和两层粉丝组成,定义为粉丝和粉丝的粉丝,E是传播空间中所有连接的边。 同质网络——节点:用户、边:社交关系
3.2.2 Problem output
  • 本文采用动态网络 d y n a m i c N e t ( m r , m a , m c ) dynamicNet(m_r,m_a,m_c) dynamicNet(mr,ma,mc),受到多消息交互的影响。利用进化博弈论量化谣言传播空间中多种类型消息(谣言消息/ m r m_r mr、反谣言消息/ m a m_a ma、动机-谣言消息/ m c m_c mc之间的相互影响,并将影响整合到谣言传播网络中,得到动态传播网络 d y n a m i c N e t ( m r , m a , m c ) dynamicNet(m_r,m_a,m_c) dynamicNet(mr,ma,mc)。接下来,使用Node2Vec算法获取用户网络结构的特征向量。
  • 用户 t+1 时刻的群体行为 P U t + 1 t + 1 P_{U^{t+1}}^{t+1} PUt+1t+1

将个体用户驱动机制和多信息影响驱动机制相结合,采用模型融合方法预测群体参与行为。此外,采用时间切片法分别预测每个时间段的用户参与情况,从而分析谣言传播趋势。

4 Proposed method

4.1 Model framework

一方面,我们认为用户是否会转发谣言(预测目标)受自身相关属性的影响,对应于个体用户的驱动机制;另一方面,它也受到多种类型消息之间交互作用的影响,对应于多消息影响的驱动机制。因此,构建起一个基于稀疏表示的复杂信息交互和群体行为的预测模型,如图2所示。
image.png
image.png
image.png
image.png
这种方法有三个步骤。首先,分别提取单个用户驱动机制和多个消息驱动机制。其次,我们首先量化复杂信息的影响,然后计算多类型信息驱动力
作为用户节点之间的边权值
,最后重构带有用户节点的主题传播网络。最后,融合了基于个体用户驱动机制的节点特征预测子模型基于多信息影响驱动机制的结构属性预测子模型,提高了模型的泛化能力。此外,采用时间切片方法预测每个时间段的群体行为,更好地拟合谣言传播的动态过程。

4.2 User behavior prediction model

4.2.1 A submodel based on SRC

考虑到稀疏表示[1]可以挖掘事物的本质特征(低维稠密向量?),我们的研究采用了稀疏表示方法,用少量用户基本属性(少量属性表示整个谣言空间?)的线性组合来表示整个谣言话题空间。然后,基于稀疏表示并结合分类算法构建稀疏表示分类器SRC[31]作为基于用户个体属性数据的群体行为预测子模型
首先,从谣言话题传播空间的训练样本用户中随机选取一定数量的样本初始化字典,并使用K-SVD算法对字典进行学习和优化。接下来,用字典表示谣言主题中的测试样本用户,如图3所示。最后选取残差值最小的类作为最终的预测结果,即用户对该谣言话题的参与行为,包括转发谣言、转发反谣言、转发动机-谣言和不转发。(预测结果)
**注:**K-SVD是一种经典的字典训练算法,依据误差最小原则,对误差项进行SVD分解,选择使误差最小的分解项作为更新的字典原子和对应的原子系数,经过不断的迭代从而得到优化的解。目标就是生成稀疏表示。
image.png
图片来源:K-SVD算法
image.png
X:训练样本 (稀疏是因为随机选取用户,并不是全部用户)
D:字典(通过K-SVD算法优化之后得到的字典)
Y:测试样本

4.2.2 A submodel based on Node2Vec

谣言传播空间中多种类型消息的相互作用影响着谣言网络的动态变化过程。为了更有效地量化这种交互,本文借鉴进化博弈的思想,计算多种类型的消息驱动,并将其作为用户节点连通边的权值,重构谣言传播关系网络,最终得到多条消息动态交互中的网络拓扑结构。
image.png
图4:一个复杂的消息博弈示意图。初始状态是用户受到相邻用户转发不同类型消息的影响。策略选择是指用户会做出不同的行为(转发谣言、转发反谣言、转发动机谣言、什么都不做)。进化博弈是指在策略选择过程中,谣言、反谣言和动机谣言相互作用影响潜在用户行为的博弈。
博弈论思想
本文通过类比博弈论的概念,将用户的转发行为视为用户的最佳战略选择。如图4所示,**在谣言传播空间中,每个用户的行为与其朋友节点的行为相关,用户最终的策略选择取决于用户与所有朋友节点博弈的最终结果。**在博弈过程中,用户通过计算选择不同策略所能带来的 profit 来决定下一步行为,通过用户因素和多消息影响因素的线性组合来衡量多类型消息对用户的影响程度 Iinf 。最后,计算的 profit 可以看作是不同类型的消息对用户的驱动力。假设当前主题空间中只存在谣言、反谣言和动机谣言,每个用户有且只有一次转发消息的机会,且非参与者不影响其他用户。
基于上述假设,存在三种博弈策略,即参与谣言策略R_r、参与反谣言策略R_a和参与动机-谣言策略R_c。 P r o f i t R x , R y ( u i j ) Profit_{Rx,Ry}(u_{ij}) ProfitRx,Ry(uij)是用户 ui 选择策略R_x,用户 ui 的朋友 uj 选择策略R_y时的收益,其中 x , y ∈ ( r , a , c ) x,y∈(r,a,c) x,y(r,a,c)。并且 P r o f i t R x , R y ( u i j ) = f ( p , q ) Profit_{Rx,Ry}(u_{ij})=f(p,q) ProfitRx,Ry(uij)=f(p,q),其中p表示谣言被转发的比例,q表示反谣言被转发的比例,1-p-q表示动机谣言被转发的比例。例如,
image.png
其中其中 P ( y = r ∣ x = r ) P(y=r|x=r) P(y=rx=r)表示在用户ui转发该谣言的情况下,uj也会转发该谣言的概率。
根据用户选择不同策略所对应的不同收益,可以量化不同类型消息的驱动因素,具体如下:
谣言:
image.png(7)
反谣言(辟谣):
image.png(8)
动机谣言:
image.png(9)
其中 N r N_r Nr为用户ui参与造谣的好友数, N a N_a Na为用户ui参与辟谣的好友数。N表示谣言空间的总人数,degree( u i u_i ui)为用户ui的度。 I i n f k ( u i ) Iinf_k(u_i) Iinfk(ui)是消息k对用户 u i u_i ui的影响。该影响是利用多元线性回归从用户属性(用户基本信息、用户活跃度、用户话题意识)和消息属性(消息基本属性、消息流行度)计算得出,其中k包括谣言、反谣言、动机-谣言。
从上面的分析来看,多种类型消息的驱动力是用户和朋友之间博弈的结果。因此,为了更真实地反映多消息空间中用户节点与好友之间的关系以及用户角色对用户参与话题的影响程度,我们的研究将多种类型消息的驱动力转化为用户之间的边权,重构谣言网络的拓扑结构。越大的消息驱动存在于用户和他们的朋友之间,他们之间的边权越大。最终,得到的边权值为:
image.png(10)
基于上述边权,重构谣言空间拓扑网络,得到在复杂的消息交互的影响下的动态传播网络 d y n a m i c N e t ( m r , m a , m c ) dynamicNet(m_r,m_a,m_c) dynamicNet(mr,ma,mc)同时,为了更准确表示用户之间的关联,本文采用Node2Vec算法基于动态传播网络 d y n a m i c N e t ( m r , m a , m c ) dynamicNet(m_r,m_a,m_c) dynamicNet(mr,ma,mc)**自动学习并有效表示话题结构特征。当当前节点为当前随机游走路径中的 u i u_i ui,且存在游走边 e d g e ( u k , u i ) edge(u_k,u_i) edge(uk,ui)到达顶点 u i u_i ui,则下一个节点 u x u_x ux的传输概率定义为:
image.png(11)
其中 w ( u i , u x ) w(u_i,u_x) w(ui,ux)是用户 u i u_i ui和用户 u x u_x ux之间的边权值。 α p q ( u k , u x ) α_{pq}(u_k,u_x) αpq(uk,ux)是控制徘徊策略的偏置,Z是归一化因子,E是谣言传播网络拓扑中所有边的集合。具体地:
image.png(12)
其中p为返回概率,表示游走时返回上一个节点的概率。q为访问参数,反映徘徊策略的BFS或DFS属性。 d ( u k , u x ) d(u_k,u_x) d(uk,ux)为节点 u i u_i ui u k u_k uk的最短距离,其中 d ( u , x ) ∈ 0 , 1 , 2 d(u,x)∈{0,1,2} d(u,x)0,1,2
image.png
图片来源:Node2vec原论文
最后,基于用户网络结构特征向量(所以关键就是如何得到社交网络中用户节点/结构的特征向量),使用
逻辑回归算法(最终的预测算法其实很简单)**预测在多种类型消息影响下的群体行为。(在多种消息交互下,是否会去转发,即retweet,以及转发何种谣言

4.2.3 Multimodel fusion

单一模型的预测往往准确率低,泛化能力差,不能同时预测不同应用场景下的实际趋势。因此,我们采用多模型融合的方法,通过融合基于单个用户因素的预测子模型基于多条消息影响下用户传播结构的预测子模型(而且是基于不同方面特征的子模型,子模型特征不一样),提高学习能力,增强泛化能力,从而更好地拟合谣言传播的动态过程。
由于不同的子模型具有不同的学习和泛化能力,考虑到加权投票模型相对简单,且本文的两个子模型相互独立,采用加权投票可以满足条件。因此,实现了融合的加权投票机制。因此,使用SRC算法的预测子模型 M S M_S MS和使用Node2Vec + Logistic Regression的预测子模型 M N M_N MN首先根据其预测精度 A c c S Acc_S AccS A c c N Acc_N AccN赋予权重,具体公式为:
image.png(13)
image.png(14)
其中 w S u j > 0 w_{S_{u_j}}>0 wSuj>0 w N u j > 0 w_{N_{u_j}}>0 wNuj>0;分别表示子模型 M S M_S MS和子模型 M N M_N MN的权重,并且 w S u j w_{S_{u_j}} wSuj+ w N u j w_{N_{u_j}} wNuj= 1。然后,采用加权投票法对子模型 M S M_S MS和子模型 M N M_N MN进行融合。最后,通过概率值的比较得到分类结果。具体公式如下:
image.png(15)
其中 k ∈ k∈ k{0,1,2,3},k=0表示用户不参与话题,k=1表示用户参与谣言,k=2表示用户参与反谣言,k=3表示用户参与动机-谣言, C S k ( u j ) C_{S}^{k}\left(u_j\right) CSk(uj) C N k ( u j ) C_{N}^{k}\left(u_j\right) CNk(uj)分别表示使用子模型 M S M_S MS和子模型 M N M_N MN得到的用户j采取行动k的概率。 M u j M_{u_j} Muj是用户j经过加权投票融合后的各种行为结果。

4.3 Learning algorithm

群体行为预测模型的输入为 t 时刻的谣言话题传播网络 G t = ( U t , E ) G^t = (U^t, E) Gt=(Ut,E),个人用户属性数据 D ( d , u i ) ∣ u i ∈ U D{(d,u_i)|u_i∈U} D(d,ui)uiU,和消息基本数据(基本新闻数据) M ( m , w k ) ∣ w k ∈ I M{(m,w_k)|w_k∈I} M(m,wk)wkI。基于输入数据,使用多模型融合方法融合SRC算法子模型和Node2Vec + Logistic回归子模型,预测 t+1 时刻的群体行为,并使用时间切片方法分析谣言的传播趋势。具体而言,本文算法如Algorithm1所示:
image.png
在上面的模型算法中,提取内外部驱动的时间复杂度 o(N),使用稀疏表示对消息传播空间进行稀疏编码的时间复杂度为o(NxFxK),其中稀疏矩阵的大小为NxF, K是字典更新中K- SVD算法的K。SRC算法的时间复杂度为o(MxN),其中M表示谣言空间中的用户节点数,N表示用户节点的向量维数。Node2Vec的时间复杂度为o( N 2 N^2 N2)。综上所述,群体行为预测模型的时间复杂度为o(N)+o(NxFxK)+o(MxN)+o( N 2 N^2 N2)~o( N 2 N^2 N2)。此外,由于谣言话题空间的僵尸粉丝数量较多,我们在进行验证时不考虑这类用户,因此虽然总体时间复杂度为o( N 2 N^2 N2),但这也是可以接受的。

5 Experiments and analysis

本节将基于新浪微博公开数据集对所构建的预测模型进行测试,以评估模型的性能。首先,对数据集进行介绍和分析。接下来,将分别介绍与这两个模型相关的baseline方法。最后,选取合适的评价指标对模型进行综合评价。

5.1 Experimental setting

5.1.1 Experimental data

本研究使用清华大学Aminer团队[25]编译的开放真实新浪微博数据集[2],并使用Twitter的公共数据集[40,41]作为实验的基础数据。由于新浪微博和Twitter都是全球有影响力的社交网络平台,而新浪微博和Twitter在受众、热点话题、互动范围等方面存在较大差异,因此这两个数据集具有较强的代表性。**由于本文的目的是研究谣言的传播,在进行实验之前,我们通过官方公布的事实,手动识别出该话题下的所有新闻,判断其为谣言、反谣言或动机谣言,并给每条谣言信息贴上相应的标签。(手动打标签)**为后续研究奠定了数据基础。我们选取了5个具有代表性的谣言话题,它们都包含多重谣言、反谣言和动机谣言。在新浪微博数据集中,我们选取了三个话题:谣言话题A(“韩寒《三重门》抄袭”)、谣言话题B(“温州火车追尾”)和谣言话题C(“衡阳转基因水稻实验”);在Twitter数据集中,作者选择了两个主题:谣言主题D(“《查理周刊》总部枪击案”)和谣言话题E(“悉尼围城事件”)。基于这些数据,挖掘用户自身因素和外部因素对其参与行为的影响,从而预测潜在用户在谣言话题下一阶段的参与程度。同时,利用活跃时段的时间切片来预测每个时间段的群体行为,从而得到谣言传播趋势的预测曲线。5个话题的统计结果如表1所示;其中,每个主题下的数字表示转发该主题相关消息的用户数量。
image.png
按照谣言传播的时间段分别统计5个谣言话题生命周期内每种类型消息的转发量,结果如图5(a-e)所示(EDA分析)。从图中可以看出,反谣言和动机谣言几乎是与谣言同时产生的,三者之间存在着复杂的共生关系。这些结果表明,为了更准确地探索谣言的传播规律,有必要对反谣言和动机谣言进行分析和讨论。
研究三种谣言的关系
image.png

5.1.2 Baseline methods

为了评价所提模型的性能,比较了以下几种方法:

  • GA-BP[18]:开发了一种基于BP神经网络和遗传算法的分类模型,用于自动识别多模态推文中的相关性,从而评估多模态推文的质量,进行相关性识别。
  • Bi-LSTM[19]:使用双向长短期记忆网络(Bi-LSTM)对每条推文进行编码,将用户的发布历史与外部记忆结合起来,通过感知用户关注者讨论的热点话题来执行转发预测任务。
  • 支持向量机[8]:支持向量机可以很好地处理线性和非线性数据集。当样本数大于特征数时,支持向量机可以产生较好的预测结果。
  • NB[24]:考虑历史交互次数、用户与微博兴趣相似度、活跃时间相似度三个特征,建立基于朴素贝叶斯(Naive Bayesian, NB)的预测模型。
5.1.3 Evaluation indicator

为了更全面地评价实验结果,本文采用了以下性能指标:

  1. LogLoss,它反映了模型的性能,数值越小,模型越有效。
  2. ROC曲线。ROC曲线减少了测试集差异的影响,提高了评价结果的客观性。
    3.Macro-precision。证明了模型的准确性。** 查准率**
    image.png(16)
  3. Macro-recall。它体现了模型的全面性。查全率
    image.png(17)
  4. Macro-F1。它分别取每个类别的F1值,然后取平均值。
    image.png(18)
  5. Micro-F1。将不同类别的TP、FP、FN、TN分别求和,形成新的混淆矩阵,然后计算F1值。

5.2 Performance analysis

在本节中,首先对基于单个用户驱动机制的预测子模型进行了比较分析。接下来,我们将比较和分析基于多消息影响机制的预测子模型。最后,通过与单个预测子模型以及baseline方法的比较,评价了模型融合的有效性。

5.2.1 Validity analysis of SubModel based on SRC

为了验证基于个体用户属性驱动机制的预测子模型的性能,分别对主题A-E进行了实验。
实验结果如图6所示,图6是每个谣言话题活跃时段下,不同时间段上的预测值与真值的对比。从图中可以看出,基于个体用户属性驱动机制的预测子模型能够在一定程度上拟合谣言话题的趋势,但在具体个体时间片的准确性上仍有一定的提升空间。
image.png

5.2.2 Validity analysis of SubModel based on Node2Vec

为了验证本节中基于多信息影响驱动机制的预测子模型的有效性,首先将精度作为评价指标,为不同的表示学习方法选择最佳嵌入维数。结果如图7所示。从图7可以看出,在谣言主题A中,嵌入维数为64时,各表示学习方法的效果最好,而在主题B和C中,嵌入维数为128时效果最好,且加入谣言&反谣言&动机-谣言影响的表示学习方法(W-Node2Vec)的准确率略高于其他方法。
image.png
为了进一步证明W-Node2Vec的有效性,我们使用LogLoss、Marco-F1和Micro-F1等评估指标来比较和对比不同谣言主题中处于最佳嵌入维度时的表示学习方法。结果如图8所示;W-Node2Vec在不同评价指标上均略好于其他方法,结果与图7所示一致。
image.png
为了研究加入谣言、反谣言、动机-谣言影响的必要性(多种谣言影响),我们将包含谣言、反谣言、动机-谣言影响的Node2Vec (R_A_M为前面提到的W-Node2Vec)与只包含谣言、反谣言影响的Node2Vec (R_A)以及不考虑任何影响因素的Node2Vec ®在实验中进行了比较,并将结果绘制为ROC曲线进行比较。结果如图9所示。从图中可以看出,考虑影响因素的方法比不考虑任何影响因素的方法更有效,并且考虑谣言&反谣言&激励-谣言影响的方法最有效。
image.png

5.2.3 Validity analysis of multimodel fusion

本文通过比较新预测模型与模型融合后的两个预测子模型,验证了模型融合的效果。结果如表2所示。并将结果与基线方法进行比较,分析本文模型算法的性能,结果如图10所示。从表2和图10可以看出,模型融合后观察到的每个指标相对于单个子模型都有显著改善,并且在所有五个谣言主题中,模型融合后展示的预测模型都比baseline方法略有效。
image.png
image.png
本节的目的是在预测模型的帮助下研究群体行为,以发现谣言传播过程中使用的规则。**因此,为了更清晰地了解谣言传播空间中的群体行为,我们对某一特定话题在该谣言话题活跃期间的同一长时间内的参与人数进行了统计分析,以更直观地描绘该谣言的发展趋势。**结果如图11所示,从图11可以看出,基于稀疏表示和复杂消息交互的群体行为预测模型能更好地反映给定谣言话题的传播趋势。
image.png
上图可以看到,横坐标为时间切片,纵坐标为retweet的用户数量(预测值和真实值)

6 Conclusion

在我们的研究中,我们开发了一个群体行为预测模型,以解决谣言空间的高维性和复杂性,同时考虑复杂消息交互对动态传播网络的影响。首先,利用SRC算法和具有先验正则性的目标函数,获得有效且稀疏的谣言空间向量矩阵,构建节点特征预测子模型;其次,利用进化博弈论的思想量化复杂信息的驱动力,重构谣言动态传播网络,构建结构属性预测子模型;最后,从影响群体行为的内外部驱动因素出发,通过模型融合,构建基于稀疏表示和复杂消息交互的群体行为预测模型,并通过时间离散化拟合谣言的传播轨迹。实验结果表明,该模型能有效预测群体行为,准确描述谣言传播规律。然而,在线社交网络极其复杂,异构实体之间往往存在复杂的关系。我们只考虑了同质话题传播网络,没有对异质谣言网络中的消息传播进行研究。因此,如何建立异构网络下的主题传播模型是未来研究中必须考虑的问题。

想法/收获

本文是预测社交网络中的用户是否会转发谣言以及何种谣言,与我的工作存在一些区别,但也有很多类似的地方,有一些方面可以借鉴:

特征和模型

多维度特征(用户层面(用户属性、用户活动)、话题层面(话题属性、群体行为话题间影响)、用户社交关系(构成社交网络))
各维度特征形成群体行为子模型——>模型融合
用户属性、Top2vec、动态社交网络——>行为预测
image.png

动态社交网络

社交网络中存在时效性——>形成动态社交网络——>时间序列预测

异质社交网络

石川
把转发不同谣言/话题的用户看成不同类型的节点;社交关系也可能存在多种
如何建立异构网络下的主题传播模型,以及在异质社交网络中如何预测群体行为

稀疏表示

本文的稀疏表示方法指的是用少量用户基本属性的线性组合来表示整个谣言话题空间,这是为了解决谣言空间高维和复杂性给模型训练带来困难的问题,因此需要构建用户节点特征的稀疏向量。但有一个问题是少量用户属性去表征这个话题空间,会不会造成信息的缺失。
以往一些研究是采用图表示学习方法(Node2vec、metapath2vec)来讲节点特征转换为低维稠密向量,该方法能够保留更多信息,但训练成本高一些。
所以具体情况下考虑哪种方法是需要具体分析的。

结构特征

本文结构特征可能更多的是用户之间行为的影响/关系,包括转发何种谣言,这也涉及到谣言之间的影响(进化博弈论)。本文还量化了这种影响,作为边的权值。然后使用Node2Vec算法获取用户网络结构的特征向量。

表示学习

  • 基于节点特征的图表示学习
  • 基于结构特征的图表示学习

论文方面

  • 伪代码算法框架
  • 数字符号/公式表示
  • 定义、输入输出
  • 对结果有较大影响的算法参数也可以作为最后的实验分析
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: ARIMA-RNN联合模型是一种用于股票价格预测的方法。ARIMA模型是一种时间序列预测模型,它可以捕捉到数据中的趋势、周期性和季节性。而RNN模型则是一种神经网络模型,能够处理具有长期依赖性的序列数据。 ARIMA-RNN联合模型的基本思想是将ARIMA模型和RNN模型相结合,以提高预测的准确性和稳定性。首先,使用ARIMA模型对股票价格时间序列进行拟合,得到ARIMA模型的参数。然后,将这些参数输入到RNN模型中,进行进一步的序列预测。 ARIMA模型能够捕捉到一些市场中的周期性和趋势性,但在处理非线性和复杂的情况时可能会有限制。这时候RNN模型的引入可以有效地提高预测的精度。RNN模型可以学习到更复杂的、非线性的关系,并且能够处理长期的依赖关系。 因此,ARIMA-RNN联合模型综合了ARIMA模型和RNN模型的优点,能够更好地预测股票价格。通过使用ARIMA模型的参数,RNN模型可以捕捉到更大范围内的时间依赖性和非线性关系,以提高预测的准确性。这种结合不仅能够更好地利用时间序列数据的特征,还能够应对数据的复杂性。 当然,ARIMA-RNN联合模型也有一些局限性。例如,对于由于外部因素引起的异常情况,模型可能会表现出较差的预测能力。另外,模型的参数选择和训练也会对预测结果产生影响。因此,在使用该模型时需要谨慎选择参数,并进行合理的模型训练和验证。 总而言之,ARIMA-RNN联合模型是一种能够更好地预测股票价格的方法。通过结合ARIMA模型和RNN模型的优势,可以提高预测的准确性和稳定性。但在实际应用中还需要考虑到模型的局限性,并进行合理的参数选择和模型训练。 ### 回答2: 基于ARIMA-RNN组合模型的股票价格预测是一种结合了ARIMA模型和循环神经网络(RNN)模型的方法。ARIMA模型是一种基于时间序列的预测模型,可以捕捉股票价格的长期趋势和季节性变化。而RNN模型则能够处理序列数据中的时间依赖性,并能捕捉到更复杂的模式和关联性。 ARIMA-RNN组合模型的一般做法是首先使用ARIMA模型对股票价格进行预测,得到一个基本的趋势线。然后将ARIMA预测的残差序列输入到RNN模型中,让RNN模型学习到这些残差序列中更加细微的关联性和模式,从而进一步提高预测的准确性。 ARIMA-RNN组合模型的优势在于能够综合利用ARIMA模型和RNN模型各自的优点,以及解决各自的问题。ARIMA模型适用于对长期趋势和季节性变化进行建模,而RNN模型适用于捕捉更加复杂的模式和关联性。因此,通过将两个模型组合起来,可以提高股票价格预测的准确性和稳定性。 ARIMA-RNN组合模型虽然较为复杂,但可以通过合理地设置模型参数和优化算法来提高预测性能。此外,还可以通过引入其他辅助信息(如技术指标、市场情绪等)来进一步改进模型。 总之,基于ARIMA-RNN组合模型的股票价格预测方法能够融合ARIMA模型和RNN模型的优势,提高预测的准确性和稳定性,对于投资者和金融机构进行股票交易决策提供了有价值的参考。 ### 回答3: ARIMA-RNN联合模型是一种用于股票价格预测的方法。ARIMA模型是一种传统的时间序列分析方法,用于捕捉时间序列数据中的趋势和周期性。RNN(循环神经网络)是一种特殊的神经网络,能够捕获数据中的长期依赖关系。 ARIMA模型首先对时间序列数据进行分析,确定最佳的自回归(AR)和移动平均(MA)参数。然后,基于这些参数,ARIMA模型可以生成一系列未来的预测值。 然而,ARIMA模型通常难以捕捉到时间序列数据中的非线性特征。这就是为什么我们需要引入RNN模型。RNN模型能够处理时间序列中复杂的依赖关系,通过记忆先前的信息来影响后续的预测结果。 ARIMA-RNN联合模型的关键思想是将ARIMA模型的预测结果作为RNN模型的输入特征。具体来说,ARIMA模型预测的未来时间步的数值被用作RNN模型的输入,以便更准确地捕捉时间序列中的非线性特征。 通过结合ARIMA和RNN模型,我们可以充分利用ARIMA模型的趋势和周期性分析能力,同时也能捕捉到RNN模型所擅长的长期依赖关系。这种联合模型能够更好地预测股票价格的未来趋势和波动。 综上所述,ARIMA-RNN联合模型是一种用于股票价格预测的方法,通过将ARIMA模型的预测结果作为RNN模型的输入特征,能够更好地捕捉时间序列数据中的趋势、周期性和长期依赖关系。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值