Self-Paced Network Representation for Few-Shot Rare Category Characterization
ABSTRACT
- 稀有类别可以使用在:在线交易网络中的金融欺诈检测,社交网络中的新兴趋势检测,计算机网络中的网络入侵检测,故障检测。
- 目的是在有限的标签信息中,学习到稀有类的表示
- 能够在embedding空间中将稀有类别和其他类表示分开
- 建立了一个方法:self-paced framework( SPARC)来学习稀有类别网络表示
INTRODUCTION
- 稀有类别的识别和表示是困难的:由于稀有类别与其他类不好区分。比如financial fraud detection中fraudulent people会模仿正常用户;spam detection中垃圾邮件会像一个正常的邮件
- 由于稀有类别不好区分,因此给这个类别打标签很昂贵
- 稀有分类:
(1) highly skewed (2) non-separable and (3) sparsely labeled - 论文讨论的问题:
(1)当少数类与多数类不可分离时,如何学习一个面向显著稀有类的嵌入表示以便更好地刻画它们
(2)如何准确地描述稀缺信息在标签信息稀缺性方面的表现 - 当前存在的图embedding的方法对稀有类不能很好的表达:如node2vec等。后来提出的方法也有问题。。
- SPARC可以预测稀有类和邻居上下文
- 论文做到:
(1)Embedding
(2)Characterization
使用了self-paced learning
RELATED WORK
Rare Category Analysis
Network Representation
各种embedding
Curriculum Learning
model is gradually trained from easy aspects of a task to the complex ones
上一篇self-pace learning
PROBLEM DEFINITION
问题1 Rare Category Embedding Representation (RCE)
- input
- an attributed network G = (V , E, X ) v定点e边x定点类别
- label x1,…,xl
- embedding的维度d
- output
关照到rare lable 的顶点的d维向量
问题2 Rare Category Characterization (RCC)
- input
- an attributed network G = (V , E, X ) v定点e边x定点类别
- label x1,…,xl
- output
a list of predicted rare category examples.预测的稀有类的example
由于问题12有关,因此论文决定联合解决问题12.
PROPOSED MODEL
SPARC 既能够进行graph embedding,又能够预测rare category examples
A Generic Joint Learning Framework
- 对于只有两个类的图,一个majority class,一个minority class。
generic rare category analysis framework 作为一个优化方程:
(代价敏感学习cost sensitive learning:
当不同的分类错误会导致不同的惩罚力度时如何训练分类器。
例如风控模型,将一个坏用户分类为好用户所造成的损失远远大于将一个好用户分类来坏用户的损失,因此在这种情况下要尽量避免将坏用户分类为好用户,可以在算法学习的时候,为坏用户样本设置更高的学习权重,从而让算法更加专注于坏用户的分类情况,提高对坏用户样本分类的查全率,但是也会将很多好用户分类为坏用户,降低坏用户分类的查准率。)
objective function:
方法分三个步骤:
-
step 1
基于当前预测模型,将伪标签分配给潜在的稀有类别实例。 -
step 2
第二阶段是本文提出的SPARC模型的关键步骤,它联合选择面向稀有类别的图上下文和可靠预测来训练RCE和RCC模型。
RCE DNN被训练以学习RCC问题的突出嵌入空间。 -
step 3
第三阶段包括两个深层神经网络(DNN)的构建,包括RCE DNN(上层)和RCC DNN(下层)
其实,对于目标公式,可以分成三部分:
- 第一部分 Lrcc
打标签,对未知标签的顶点打标签
Ls是已有标签的顶点分错类的概率,要尽可能的小。
后面的是将顶点的标签分成min类(1)的概率,采用的式子是自步学习的式子,vi是是否选择此样本(0不选择,1选择),之前有介绍过。
对于pr概率公式:
也就是在当前feature vector xi和顶点embedding vector ei下属于yi的概率,其中hk是k层隐藏层,特征向量和顶点嵌入性向量点乘,越大表示此点越贴近这个feature。
对于这部分式子,在学习的时候也就是之前网络中的RCC部分,对于学习时的梯度,关于vi求导后:
我们想让值往小了发展,也就是往梯度负发展,也就是求导后小于0,我们会选择此样本来进行学习,也就是:
倒数小于0,之后vi=1选择此样本,反之不选择。 - 第二部分 Lrce
这一部分是嵌入成向量,采用的方法是自步学习,vi是是否选择此样本(0不选择,1选择),第一个式子是cross entropy,含有正负样本,其中的gamma对于证样本是1,负样本是-1。
对于学习的时候是否选择此样本,道理同上:
- 第三部分 Lco
这部分是对两个vi的一种约束。