论文链接:Cash-Out User Detection Based on Attributed Heterogeneous Information Network with a Hierarchical Attention Mechanism
论文作者:北京邮电大学胡斌斌等人
摘要
套现欺诈是金融服务中主要的欺诈行为之一,是指使用者通过非法或不诚实的手段谋取现金利益。传统的现金用户检测方法是对每个用户进行细微的特征工程,然后应用分类器,如GDBT和神经网络。然而,金融服务中的用户具有丰富的交互关系,传统解决方案很少能充分利用这种交互关系。本文首先以蚂蚁金融集团蚂蚁信用支付的真实数据集为基础,研究了现金用户检测问题,提出了一种基于层次注意机制的现金用户检测模型,称为HACUD。具体地说,我们利用属性异构信息网络(attribudheterogeneous Information Network, AHIN)对信用支付服务场景中不同类型的对象及其丰富的属性和交互关系进行建模。HACUD模型通过利用AHIN中结构信息的不同方面,利用基于元路径的邻居来增强对象的特征表示。在此基础上,精心设计了层次注意机制,以模拟用户对属性和元路径的偏好。在两个真实数据集上的实验结果表明,该算法的性能优于现有的算法。
1 引言
信用支付服务,如商业银行的线下信用卡服务和互联网金融机构的线上信用支付,被广泛应用于日常生活的许多方面,给用户和商家带来了方便。然而,日益增多的欺诈行为严重影响了信用支付服务的安全性。套现欺诈是指通过非法或不诚实的手段获取现金收益,如购买预付卡或其他商品,然后转售。随着电子商务的迅速发展,它已成为各种信用支付服务的主要欺诈手段之一。套现欺诈行为是违法的,可能会造成金融风险,因为套现用户在大多数情况下出现贷款违约的概率要高得多。因此,套现用户检测成为金融机构欺诈检测系统的重要组成部分之一。
现金用户检测的目的是预测用户将来是否会进行现金交易。因此,这个问题可以表述为一个分类问题。传统的解决方案首先对每个用户进行微妙的特征工程,然后基于这些特征训练分类器,如基于树的模型或神经网络。这些方法的关键是从不同方面提取用户的统计特征,如用户档案、信用历史、交易汇总和其他相关业务的近期行为。传统的预测方法主要基于用户的统计特征进行预测,很少充分利用用户之间的交互关系,这可能有利于现金用户的检测问题。
事实上,信用支付服务场景中存在着丰富的交互关系,这对于支取用户检测问题非常重要。图1a展示了信用支付服务的一般场景,其中有三类对象:用户、商家和设备(访问服务的方式,如网站、桌面、移动应用程序、wifi设备等)。这些对象除了属性信息外,还具有丰富的交互信息,如用户之间的资金转账关系、用户与设备的登录关系、用户与商家的交易关系等。套现用户在互动关系中不仅具有异常特征,而且行为异常。例如,提现用户可能同时与特定商家进行许多交易和资金转账,这是传统特征提取难以利用的。
为了挖掘信用支付服务的交互关系和特征信息,提出了基于属性异构信息网络(AHIN)的信用支付服务场景建模方法。最近出现的异构信息网络(HIN) (Shi et al. 2017)由多种类型的节点和链路组成,被认为是描述数据异构性的一种强大的信息建模方法(Sun et al. 2011;Zhao et al. 2017)。此外,为了整合对象的属性信息,我们将传统HIN扩展为AHIN, HIN中的对象可以包含属性(或称为特征)。图1b给出了信用支付服务情景下AHIN的网络模式,清晰地展示了对象及其相互作用。在挖掘HIN方面已经做出了一些努力,并在各种应用中显示出了良好的性能(Dong, Chawla, and Swami 2017;孙汉2012;Shi et al. 2018)。但是,它们通常是为特定的任务而设计的,只利用结构信息,因此不能直接应用于AHIN和套现用户检测问题。
本文首先研究了AHIN框架下的套现检测问题,提出了一种基于层次注意机制的套现用户检测模型HACUD。HACUD的基本思想是通过充分利用交互关系,即利用基于元路径的邻居,显著增强对象的特征表示。灵感来自(Kipf and Welling 2017;Zhang et al. 2018)以及我们对真实数据的观察,我们假设对象的特征表示除了固有特征外,还由其邻居的特征构成。我们提出了基于元路径的邻居的概念,以利用AHIN中丰富的结构信息。也就是说,我们可以通过指定的元路径(连接两个节点的关系序列)找到一个节点的邻居。它有几个优点:(1)可以通过不同的元路径捕获结构信息的不同方面(Han et al. 2018);(2)与传统的网络表示学习方法相比,大大降低了表示空间的维数;(3)具有动态预测新节点的潜力。进一步,我们假设对象属性和元路径具有不同的重要性,并精心设计了一个层次注意机制来学习用户对属性和元路径的偏好。具体来说,我们的注意机制的第一层是在特征空间(即属性)中模拟用户的注意,而第二层则捕捉不同元路径对预测任务的不同贡献。最后,基于多层感知器的聚合特征表示,预测了套现概率。
总之,我们的工作有以下贡献。
- 我们首先研究了套现用户的检测问题,这是金融欺诈领域中一个非常重要且广泛存在的问题。
- 我们提出将套现用户检测问题建模为AHIN中的一个分类问题,该问题由不同类型的对象及其在信用支付服务场景中的丰富交互构成。
- 我们提出了一种新的模型HACUD来解决这个问题,该模型采用基于元路径的邻居来充分利用结构信息,并采用分层注意机制自动学习属性和元路径的重要性
- 在两个真实数据集上进行的大量实验表明,与目前的水平相比,所提出的HACUD的最佳性能以及分层注意机制的好处。
基础知识
HIN是一种特殊的信息网络,它包含多种类型的对象或多种类型的链路(Sun and Han 2012)。为了整合广泛存在的对象属性信息,我们进一步将HIN扩展为属性异构信息网络(AHIN),具体如下:
所提模型
在本节中,我们首先分析了基于元路径的邻居对真实数据中套现用户检测的影响,然后提出了基于层次注意机制的套现用户检测模型,简称HACUD。我们在图2中展示了所建议模型的总体架构。首先,我们基于不同的元路径为每个用户聚合邻居,将结构信息的多个方面整合到AHIN中,然后对原始特征进行转换和融合,以更好地表示学习。考虑到不同的特征或元路径有不同的重要性,我们设计了一个分层的注意机制来模拟用户对特征和元路径的偏好。
真实数据观测
从直觉上看,套现用户倾向于通过不同类型的互动进行紧密聚集。以图1a中的AHIN为例,提现用户倾向于与销售特定商品的商家(如预购卡)进行更多的交易,或与更多的骗子进行互动。为了验证不同关系下的提现用户聚集情况,我们在蚂蚁金融服务集团的蚂蚁信贷支付真实数据集上进行了实验(见实验中的十天数据集)。
我们首先基于两个元路径收集每个用户的元路径邻居(U M U表示用户与同一商家进行交易,U U表示用户之间进行资金转账)。对于每个元路径,我们计算现金用户的邻居数量(称为现金邻居),并根据现金邻居的数量将所有用户划分为不同的组。计算各组的套现率(即套现用户的比例)。图3给出了两种元路径下,不同用户组的现金兑换率相对于没有现金兑换率邻居的用户的提升百分比。我们有以下观察。
分层注意力机制
从直觉上看,不同的用户可能会基于不同的元路径和属性信息对功能有不同的偏好。具体地说,用户可能会根据元路径对不同的方面特性赋予不同的重要性。此外,特征对于预测任务也有不同的重要性。由于注意机制在各种机器学习任务中的有效性(Hu et al. 2018;Cheng et al. 2018;Y ou et al. 2016),我们设计了一个层次注意机制来捕捉用户对特征和元路径的偏好。
总结
本文首先研究了在属性异构信息网络框架下,由信用支付服务场景下的对象及其关系构成的套现用户检测问题,并提出了一种新的HACUD模型。在基于元路径的邻居的帮助下,我们从节点属性聚合对象的特征,以及由元路径生成的结构特征。此外,我们设计了一个分层的注意机制来模拟用户对属性和元路径的偏好。以蚂蚁金融服务集团蚂蚁信贷支付的真实数据集为例,对现金用户检测任务进行了大量的实验,验证了模型的有效性。作为未来的工作,我们将研究如何集成更多的异构信息(如交互关系),并将我们的模型扩展到半监督场景。