【论文笔记】ImGCL：Revisiting Graph Contrastive Learning on Imbalanced Node Classification（简要笔记供复习使用）

好想变有钱535

已于 2024-01-17 01:12:38 修改

阅读量1.1k

点赞数 26

文章标签：笔记深度学习人工智能

于 2024-01-17 01:04:44 首次发布

本文链接：https://blog.csdn.net/qq_63084821/article/details/135638832

版权

本文提出了一种自适应采样策略的框架，针对不平衡数据集的节点分类问题进行了重新研究。方法包括ProgressiveBalancedSampling(PBS)和在线聚类，通过调整训练和测试数据的比例，以及利用节点中心性进行采样，有效提高了在如Amazon-Computers等数据集上的性能。

摘要由CSDN通过智能技术生成

ImGCL：Revisiting Graph Contrastive Learning on Imbalanced Node Classification

论文地址：Revisiting Graph Contrastive Learning on Imbalanced Node Classification.pdf

Contribution

利用一个自适应采样策略的对比学习框架解决了数据集不平衡（长尾数据集）的性能受限问题，具体来说，根据算法目前的学习情况形成伪标签，逐步将数据集调整至平衡

Motivation

前人的工作大多忽略了无监督学习数据集的长尾问题，对比当时的SOTA—GBTbaseline在Amazon-Computers数据集
有通过更改尾部数据集学习频次从而解决数据集长尾问题的方案但由于需要标签，几乎不能在无监督学习上work

Method

思路：利用对原图不同类别和不同重要性的节点进行不同比例的down-sampling获得子图，作为新的iteration的输入，从而对齐最后的testset数据比例，即均等比例

在这里插入图片描述

Progressively Balanced Sampling (PBS)
- Sampling Strategies
  
  $\begin{aligned}p_k&=\frac{N_k^q}{\sum_{i=1}^KN_i^q}\end{aligned}$ 表示了从 $K$ 个类中采样某一个节点的概率， $N^q_k$ 表示第 $k$ 类的节点个数， $q\in[0,1]$ 根据不同策略调整
- PBS
  
  数据集设置：训练集long-tail，测试集balance
  
  令 $q = 1$ ，有 $p_{k}^{R}=\frac{N_{\boldsymbol{k}}}{\sum_{i=1}^{K}N_{\boldsymbol{i}}}$ ，为适应训练集和测试集过渡，引入 $\alpha=1-\frac tT$ ，有
  
  $\begin{aligned}p_{k}^{\mathrm{PB}}& =\alpha*p_k^R+(1-\alpha)*p_k^M \\&=\alpha*\frac{N_k}{\sum_{i=1}^KN_i}+(1-\alpha)*\frac1K\end{aligned}$
Online Clustering Based PBS
- 为利用PBS方法适应性调整数据集类别分布，利用online cluster方法生成伪标签
- 聚类方法使用K-Means，K是一个超参数数量等于下游分类任务的类别数
- 学习一个形状为 $D\times K$ 的质心矩阵C，对所有节点的embedding表示计算使下列值最小，则认为该节点属于这个类别
  
  K表示簇的数量，D是hidden dimension等同于节点embedding的长度，下式计算节点embedding和簇中心embedding的均方误差大小
  
  $\begin{aligned}\min_{C\in\mathbb{R}^{D\times K}}\frac{1}{N}\sum_{n=1}^{N}\min_{\hat{y}_{n}}\|z_{t,n}-C\hat{y}_{n}\|_{2}^{2}\text{ such that}\quad\hat{y}_{n}^{\top}1_{K}=1\end{aligned}$
  
  $z_{t,n}$ 表示第t个iteration时第n个节点的embedding， $z_{t,n}\in\mathbb{R}^D$
- 以此获得独热向量 $\hat{y}_n\in\mathbb{R}_+^K$ ，表示节点属于第k个簇/类
Node Centrality Based PBS
- 计算节点中心性，根据节点重要性对不同类别节点进行down-sampling
- 利用PageRank方法进行节点重要性/中心性的计算， $\sigma=\alpha AD^{-1}+1\text{, where }\sigma\in\mathbb{R}^N$ ， $A$ 是节点邻接矩阵， $D$ 是节点的度矩阵，循环多次直到稳定获得节点重要性
  
  即节点重要性的影响因素是节点本身的度，连接的节点的重要性，因此需要循环传播节点连接重要性
- 对某个类的某个节点的采样概率为
  
  $p_{v,j}^{\mathrm{NPB}}=\min\left\{\frac{\sigma_{v}-\sigma_{\min}}{\sigma_{\max}-\sigma_{\min}}\cdot p_{j}^{\mathrm{PB}},p_{\tau}\right\}$
  
  $p_{j}^{\mathrm{PB}}$ 是PBS采样概率经正则化的概率小，即采样每类节点的概率，用于调整类别之间数量由不平衡线性过渡到平衡， $p_{\tau}$ 表示最低采样限度，防止部分边缘节点无法被采样
summary

Details

Dataset

利用了四个常用的数据集作为直推节点分类任务的数据，分别是Wiki-CS, Amazon-computers, Amazon-photo, and DBLP
Train Set

8：1：1划分数据集，其中测试集验证集为平衡数据集，训练集不均等
Different Type Imbalance
- Exp Imbalance
  
  训练集不同类的采样比例遵循指数分布，参数越大越不平衡
- Pareto Imbalance
  
  训练集不同类的采样比例遵循Pareto分布，参数越小越不平衡

‍

好想变有钱535

关注

26
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【论文笔记】ImGCL：Revisiting Graph Contrastive Learning on Imbalanced Node Classification（简要笔记供复习使用）

ImGCL：Revisiting Graph Contrastive Learning on Imbalanced Node Classification

论文地址：Revisiting Graph Contrastive Learning on Imbalanced Node Classification.pdf

Contribution

利用一个自适应采样策略的对比学习框架解决了数据集不平衡（长尾数据集）的性能受限问题，具体来说，根据算法目前的学习情况形成伪标签，逐步将数据集调整至平衡

Motivation

前人的工作大多忽略了无监督学习数据集的长尾问题，对比当时的SOTA—GBTbaseline在Amazon-Computers数据集

有通过更改尾部数据集学习频次从而解决数据集长尾问题的方案但由于需要标签，几乎不能在无监督学习上work

Method

思路：利用对原图不同类别和不同重要性的节点进行不同比例的down-sampling获得子图，作为新的iteration的输入，从而对齐最后的testset数据比例，即均等比例

Progressively Balanced Sampling (PBS)

Sampling Strategies

PBS

数据集设置：训练集long-tail，测试集balance

令 q = 1 q=1 q=1，有 p k R = N k ∑ i = 1 K N i p_{k}^{R}=\frac{N_{\boldsymbol{k}}}{\sum_{i=1}^{K}N_{\boldsymbol{i}}} pkR​=∑i=1K​Ni​Nk​​，为适应训练集和测试集过渡，引入 α = 1 − t T \alpha=1-\frac tT α=1−Tt​，有

Online Clustering Based PBS

为利用PBS方法适应性调整数据集类别分布，利用online cluster方法生成伪标签

聚类方法使用K-Means，K是一个超参数数量等于下游分类任务的类别数

学习一个形状为 D × K D\times K D×K的质心矩阵C，对所有节点的embedding表示计算使下列值最小，则认为该节点属于这个类别

K表示簇的数量，D是hidden dimension等同于节点embedding的长度，下式计算节点embedding和簇中心embedding的均方误差大小

以此获得独热向量 y ^ n ∈ R + K \hat{y}_n\in\mathbb{R}_+^K y^​n​∈R+K​，表示节点属于第k个簇/类

Node Centrality Based PBS

计算节点中心性，根据节点重要性对不同类别节点进行down-sampling

即节点重要性的影响因素是节点本身的度，连接的节点的重要性，因此需要循环传播节点连接重要性

对某个类的某个节点的采样概率为

p j P B p_{j}^{\mathrm{PB}} pjPB​是PBS采样概率经正则化的概率小，即采样每类节点的概率，用于调整类别之间数量由不平衡线性过渡到平衡， p τ p_{\tau} pτ​表示最低采样限度，防止部分边缘节点无法被采样

summary

Details

Dataset

利用了四个常用的数据集作为直推节点分类任务的数据，分别是Wiki-CS, Amazon-computers, Amazon-photo, and DBLP

Train Set

8：1：1划分数据集，其中测试集验证集为平衡数据集，训练集不均等

Different Type Imbalance

Exp Imbalance

训练集不同类的采样比例遵循指数分布，参数越大越不平衡

Pareto Imbalance

训练集不同类的采样比例遵循Pareto分布，参数越小越不平衡

令 $q = 1$ ，有 $p_{k}^{R}=\frac{N_{\boldsymbol{k}}}{\sum_{i=1}^{K}N_{\boldsymbol{i}}}$ ，为适应训练集和测试集过渡，引入 $\alpha=1-\frac tT$ ，有

学习一个形状为 $D\times K$ 的质心矩阵C，对所有节点的embedding表示计算使下列值最小，则认为该节点属于这个类别

以此获得独热向量 $\hat{y}_n\in\mathbb{R}_+^K$ ，表示节点属于第k个簇/类

$p_{j}^{\mathrm{PB}}$ 是PBS采样概率经正则化的概率小，即采样每类节点的概率，用于调整类别之间数量由不平衡线性过渡到平衡， $p_{\tau}$ 表示最低采样限度，防止部分边缘节点无法被采样