1.问题定义
- 给定一个查询节点,求出此节点所属的社区。社区搜索用途(可以为许多应用提供候选集:friend recommendations,fraudulent graph discover)
2.现存方法缺点
- 1)先爬取大部分的网络数据,然后从中寻找社区,但是爬取的数据很大一部分对终端用户没用。并且不能实时爬取数据,将数据爬取和社区搜索分开。
- 2)使用人工定义的规则评价社区好坏,社区结构是灵活的,不能有效的评估
- 3)根据预定义的规则(k-core,k-truss)在真实的数据中很难发现高质量的社区
3.本文工作
- 从在线网络中实时收集的子图中,定位目标社区
- 将社区问题定义为节点分类问题,通过GNN学习到每个节点基于查询节点的嵌入向量,将向量送入多分类器进行分类,寻找社区,找出的社区通过用户打的标签判定社区好坏,优化损失函数,学习权重参数(
Q:每次都是基于特定节点训练的网络,下一次输入另一个不同的查询节点时,基于之前训练的模型得到的嵌入是不是不准确) - 每次迭代中,根据查询节点和
标记的节点,爬取候选字图,用训练的GNN模型评估节点分数,发现KMG社区,用户评价社区好坏,获得反馈,若训练的模型不佳,根据反馈重新训练网络结构
4.创新点
爬取数据和社区搜索交替进行(???)- 根据查询节点有目标的爬取相关的子图
- 通过深度学习,根据节点的结构和内容特征,学习节点的表示,进而进行分类
5.为什么是轻量级的(Lightweight)
- 爬取和查询节点相关的有用数据子图,降低后序社区搜索的花费
- 只需用户标记节点是否在社区中,传统方法(k-core,k-truss)需要用户不断地调整参数K
- 可以利用已经训练好的关键字(节点的特征)表示,这些关键字已经从大量数据中捕获到了关系
6.文章贡献
- 通过GNN模型结合内容和结构特征,选取GNN得分最大的k-size子图(KMG community)
通过BFS和局部边缘增强策略构建候选字图,用GNN模型计算每个节点在社区中的概率,通过vertex-swapping方法定位社区- 两种优化策略
在GNN模型中加入基于排序的损失函数,简化标记任务(labeling tasks)
用贪心算法定位KMG社区
7.GNN
-
本质
捕获内容特性和结构关系来学习节点的高维表示,主要包括两个函数,aggregate function(从不同权重的邻居中聚合embedding,要求聚合结果和输入的邻居节点顺序无关,常见的聚合函数 sum,mean),update function将embedding变形成新的表示(通常通过激活函数进行非线性变换)
图注:节点嵌入初始化(直接用各个节点的特征矩阵)
图注:利用GCN学习节点嵌入的过程
-
GNN变体
给邻居分配权重以及聚合邻居信息时存在差异,产生不同的GNN变体,GCN(聚合所有邻居的信息),GraphSage(对邻居节点抽样操作,不聚合所有邻居),GAT(使用注意力机制确定邻居的权重)