图计算论文笔记--SPARC: Self-Paced Network Representation for Few-Shot Rare Category Characterization

最新推荐文章于 2022-12-06 12:07:41 发布

玛卡巴卡米卡巴卡

最新推荐文章于 2022-12-06 12:07:41 发布

阅读量648

点赞数

分类专栏：图计算文章标签：图计算

本文链接：https://blog.csdn.net/travalscx/article/details/84836684

版权

图计算专栏收录该内容

24 篇文章 3 订阅

订阅专栏

Self-Paced Network Representation for Few-Shot Rare Category Characterization

ABSTRACT
INTRODUCTION
RELATED WORK
PROBLEM DEFINITION
- 问题1 Rare Category Embedding Representation (RCE)
- 问题2 Rare Category Characterization (RCC)
PROPOSED MODEL
- A Generic Joint Learning Framework

ABSTRACT

稀有类别可以使用在：在线交易网络中的金融欺诈检测，社交网络中的新兴趋势检测，计算机网络中的网络入侵检测，故障检测。
目的是在有限的标签信息中，学习到稀有类的表示
能够在embedding空间中将稀有类别和其他类表示分开
建立了一个方法：self-paced framework（ SPARC）来学习稀有类别网络表示

INTRODUCTION

稀有类别的识别和表示是困难的：由于稀有类别与其他类不好区分。比如financial fraud detection中fraudulent people会模仿正常用户；spam detection中垃圾邮件会像一个正常的邮件
由于稀有类别不好区分，因此给这个类别打标签很昂贵
稀有分类：
(1) highly skewed (2) non-separable and (3) sparsely labeled
论文讨论的问题：
（1）当少数类与多数类不可分离时，如何学习一个面向显著稀有类的嵌入表示以便更好地刻画它们
（2）如何准确地描述稀缺信息在标签信息稀缺性方面的表现
当前存在的图embedding的方法对稀有类不能很好的表达：如node2vec等。后来提出的方法也有问题。。
SPARC可以预测稀有类和邻居上下文
论文做到：
（1）Embedding
（2）Characterization
使用了self-paced learning

RELATED WORK

Rare Category Analysis

Network Representation

各种embedding

Curriculum Learning

model is gradually trained from easy aspects of a task to the complex ones
上一篇self-pace learning

PROBLEM DEFINITION

问题1 Rare Category Embedding Representation (RCE)

input

an attributed network G = (V , E, X ) v定点e边x定点类别
label x1,…,xl
embedding的维度d

output
关照到rare lable 的顶点的d维向量

问题2 Rare Category Characterization (RCC)

input

an attributed network G = (V , E, X ) v定点e边x定点类别
label x1,…,xl

output
a list of predicted rare category examples.预测的稀有类的example

由于问题12有关，因此论文决定联合解决问题12.

PROPOSED MODEL

SPARC 既能够进行graph embedding，又能够预测rare category examples

A Generic Joint Learning Framework

对于只有两个类的图，一个majority class，一个minority class。
generic rare category analysis framework 作为一个优化方程：

(代价敏感学习cost sensitive learning：
当不同的分类错误会导致不同的惩罚力度时如何训练分类器。
例如风控模型，将一个坏用户分类为好用户所造成的损失远远大于将一个好用户分类来坏用户的损失，因此在这种情况下要尽量避免将坏用户分类为好用户，可以在算法学习的时候，为坏用户样本设置更高的学习权重，从而让算法更加专注于坏用户的分类情况，提高对坏用户样本分类的查全率，但是也会将很多好用户分类为坏用户，降低坏用户分类的查准率。)

objective function:

在这里插入图片描述

方法分三个步骤：
在这里插入图片描述

step 1
基于当前预测模型，将伪标签分配给潜在的稀有类别实例。
step 2
第二阶段是本文提出的SPARC模型的关键步骤，它联合选择面向稀有类别的图上下文和可靠预测来训练RCE和RCC模型。
RCE DNN被训练以学习RCC问题的突出嵌入空间。
step 3
第三阶段包括两个深层神经网络（DNN）的构建，包括RCE DNN（上层）和RCC DNN（下层）

其实，对于目标公式，可以分成三部分：在这里插入图片描述

第一部分 Lrcc
打标签，对未知标签的顶点打标签

Ls是已有标签的顶点分错类的概率，要尽可能的小。
后面的是将顶点的标签分成min类（1）的概率，采用的式子是自步学习的式子，vi是是否选择此样本（0不选择，1选择），之前有介绍过。
对于pr概率公式：

也就是在当前feature vector xi和顶点embedding vector ei下属于yi的概率，其中hk是k层隐藏层，特征向量和顶点嵌入性向量点乘，越大表示此点越贴近这个feature。
对于这部分式子，在学习的时候也就是之前网络中的RCC部分，对于学习时的梯度，关于vi求导后：

我们想让值往小了发展，也就是往梯度负发展，也就是求导后小于0，我们会选择此样本来进行学习，也就是：

倒数小于0，之后vi=1选择此样本，反之不选择。
第二部分 Lrce

这一部分是嵌入成向量，采用的方法是自步学习，vi是是否选择此样本（0不选择，1选择），第一个式子是cross entropy，含有正负样本，其中的gamma对于证样本是1，负样本是-1。
对于学习的时候是否选择此样本，道理同上：
第三部分 Lco
这部分是对两个vi的一种约束。