文献阅读(56)AAAI2021-Graph Game Embedding

本文是对《Graph Game Embedding》一文的浅显翻译与理解,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:文献阅读总结:网络表示学习/图学习

Title

《Graph Game Embedding》

——AAAI2021

Author: Xiaobin Hong

总结

文章将博弈论的思想引入到图嵌入中,通过将节点视为玩家,边视为玩家间的交互,节点嵌入视为玩家选择的策略,来用博弈的思想学习节点嵌入,其优化目标即使得所有玩家选择的策略共同达到纳什均衡。(Game Theory即博弈论,但Game Learning也有游戏学习的称呼,在此为避免混淆,将Game统称为博弈。)

1 策略推演

给出一个无向图G=(V,E),博弈学习的目的在于为每个玩家(节点)v_i学习一个策略空间(即嵌入空间)S_i,当玩家选定一个策略后,要给出正向或负向的收益,对收益(奖励)的评估,需要构造一个效用函数U_i,对该函数的理论定义如下:

在这里插入图片描述

其中,-i指的是除了i之外的所有节点(后续部分公式不再给出,只介绍大意)。
事实上,文章默认每个玩家的策略空间都是相同的,那么训练目标就变成了为每个玩家学习一个严格的占优策略列表(即最优策略),即选择这一策略时玩家能够获得的收益最大,并且能够保证纳什均衡。在博弈论中,纳什均衡是一个非合作博弈的提议解决方案,涉及两个或多个参与者,其中假设每个参与者都知道其他参与者的均衡策略,没有玩家可以通过改变他们自己的策略来获得任何收获。在当前场景下,当每个玩家的策略列表共同达到纳什均衡后,就意味着节点嵌入的优化收敛了。

此外,由于直接计算玩家的最优策略计算量较大,因此文章采用类似贪心算法的思想,每一步选择一个更优策略保证收益高出先前,直至收敛。

注意到,在学习过程中,最为重要的即对玩家选择策略的收益评估,也就是效用函数U的构建。在此,文章考虑不同的交互类型,分别讨论了两类效用函数,即点对博弈嵌入和组群博弈嵌入。

2 点对博弈嵌入

文章采用该类模型,是将网络中的交互视为单对节点之前发生的,此时的效用函数有:

在这里插入图片描述

根据节点的交互信息(拓扑结构),可以将网络中的其他节点分为两类,正样本和负样本。其中,正样本是该节点的K阶邻居N(v_i),又被视为合作的玩家。负样本是除正样本外的所有节点-N(v_i),又被视为对抗的玩家。面对不同的玩家身份,玩家i选择的策略也会得到不同的收益,即:

在这里插入图片描述

在这种情况下,对策略间收益的具体评估公式可定义为:

在这里插入图片描述
在这里插入图片描述

事实上,玩家选择的策略,即节点的嵌入,那么对玩家间策略的收益评估,可视为节点嵌入间的相似度计算,从而能够有效地结合合作玩家(即正样本节点嵌入),区别对抗玩家(即负样本节点嵌入)。

在点对博弈视角下,模型的优化目标如下:

在这里插入图片描述

3 组群博弈嵌入

该类视角更关注组群之间的交互,即将一个组群的节点视为一个玩家,此时的效用函数有:

在这里插入图片描述

其具体评估公式为:

在这里插入图片描述

在这种情况下,仍然能够以K阶邻居的方式对节点的合作玩家和对抗玩家进行区分,该视角下的优化目标如下:

在这里插入图片描述

4 参数优化

在此需要优化的参数是策略,即节点嵌入。上文介绍了对策略的评估,而策略是怎么产生的呢?在此,文章认为一个玩家的策略要考虑其邻居信息,即需要聚合邻居的策略完成选择,则有:

在这里插入图片描述

其中x指的是节点的初始状态。那么整个模型的思路为:给出一个网络,可以结合属性信息或随机为每个节点生成初始的状态向量,而后通过聚合邻域信息得到节点嵌入,即玩家策略。通过选择不同的效用函数来对策略进行优化,事实上就完成了对节点嵌入的更新。

该算法的伪代码如下:

在这里插入图片描述

此外,文章还包括收敛分析、无监督向半监督的扩展和理论分析等内容,在此不再具体讨论。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值