用于欺诈交易检测的意图感知异构图注意网络--翻译版,整理版本,欺诈检测相关论文

  • 用于欺诈交易检测的意图感知异构图注意网络
    • Intention-aware Heterogeneous Graph Attention Networks for Fraud Transactions Detection
    • 异常边检测
    • 总结

      • 图神经方法IHGAT:它不仅感知类似序列的意图,而且还编码了事务之间的关系。
      • 建立在交易属性共现基础上的交易之间的交互可能对检测欺诈交易至关重要。
      • 两个节点:包含两种节点,即交易节点和意图节点。
        • 在HTIN中有两种类型的边:事务——事务边缘是通过生成属性建立的,E𝑡𝑡是基于事务节点的属性上的共现关系而创建的。事务——意图边缘是由序列分割创建的,每个事务都涉及到一个用户的行为序列,E𝑡𝑖根据事务节点和意图节点的从属关系进行连接。
      • 我们的目的是训练一个模型,并预测测试集中的一个交易节点为欺诈的概率。
      • 长短期记忆(LSTM)是一种时间递归神经网络(RNN),适合被用于处理和预测时间序列中间隔和延迟非常长的重要事件。
      • 最先进的基于树的方法的性能优于基于序列的模型,基于图形的方法优于这些基于序列和基于树的模型。
      • 我们提出的模型IHGAT得益于用户意图、注意机制和异构交易意图网络的构建
    • 摘要

      • 欺诈交易已经成为电子商务平台健康发展的主要威胁,它不仅破坏用户体验,也扰乱了市场的有序运行。用户行为数据被广泛用于检测欺诈交易,最近的研究表明,在行为序列中对用户意图进行准确的建模可以推动性能的进一步提高。然而,现有的大多数方法都将每个事务作为一个独立的数据实例来处理,而没有考虑由事务属性访问的事务级交互,例如:备注、物流、支付、设备等信息。,在更复杂的情况下,可能无法取得令人满意的结果。本文设计了一种新型异构交易意向网络利用交叉相互作用信息在交易和意图,它包含两种类型的节点,即事务和目的节点,和两种类型的边缘,即transaction-intention和transaction-transaction边缘。然后,我们提出了一个图神经方法IHGAT (Intentionaware Heterogeneous graph ATtention networks),它不仅感知类似序列的意图,而且还编码了事务之间的关系。在阿里巴巴平台的真实数据集上进行的大量实验表明,我们提出的算法在离线和在线模式下都优于最先进的方法。
      • 关键词:意图感知;异构交易意图网络;欺诈交易检测
    • 介绍

      • 欺诈交易是指商家通过非法手段获取电子商务平台权益的活动[18,20,26]。例如,为了满足电商平台的活动门槛,不择手段的商家让自己的亲朋好友,甚至招募一些诈骗用户冒充买家进行诈骗交易。欺诈交易不仅破坏用户体验,扰乱市场秩序,而且影响平台声誉,造成用户损失。因此,发现虚假交易对电子商务平台的长期健康发展至关重要。近年来,随着数以百万计的用户行为数据可用,各种基于用户行为数据的深度学习模型被提出来检测欺诈交易。其中,以序列为基础的方法一般将用户的历史行为视为由有序排列的行为组成的序列。与其他序列不同,用户行为序列似乎是局部相关的,连续的子序列通常代表不同的用户意图。对行为序列进行绑定和切断处理,得到用户意图树,提出了一种基于树的神经网络方法来检测欺诈交易。他们的竞争结果表明,从顺序行为中提取的用户意图有利于欺诈交易检测。尽管目前的研究取得了显著的成功,但值得注意的是,现有的方法将每个交易视为一个独立的实体,忽略了交易之间的丰富交互。对于事务,多维属性信息,如备注、物流、支付、设备等信息,如图1 (a)所示。考虑到(1)网络犯罪分子有时会利用交易属性来识别共犯;(2)由于平台的自动机制,内部线索可能被记录。例如,欺诈者过去常常在交易备注中主动留下一个密码,以便与其他不法分子交流;步调一致的[3]诈骗犯经常操纵一组账户来触发同步交易,从而衍生出付款时间戳非常接近的交易。
        • 异构交易意图网络的一个例子:(a)事务处理属性和用户意图 (b)异构交易意向网络

      • 另一方面,欺诈交易近年来变得越来越有组织性。例如,为了尽可能地模仿正常用户的行为,一些网络犯罪组织者经常对骗子[11]的操作提出一定的要求。因此,这些被操纵用户的行为可能类似于良性用户,但具有过度一致的模式,例如查看特定页面、从同一个条目下订单等,只有当我们将多个交易聚合在一起时,才会被视为异常。受这些观察结果的启发,我们相信,建立在交易属性共现基础上的交易之间的交互可能对检测欺诈交易至关重要。
      • 为此,我们设计了一个异构事务意图网络(简称HTIN)来完全表示事务和意图级的事务交互。图1 (b)展示了一个HTIN示例。其中包含两种节点,即交易节点和意图节点。意图节点是类似序列的用户操作,并按照[17]中的构造算法派生,将在第3节中介绍。同时在HTIN中有两种类型的边。其中,事务——事务边缘是通过生成属性建立的。事务意图边缘是由序列分割创建的,回想一下,每个事务都涉及到一个用户的行为序列。然后,我们提出了一种新的图神经方法意图感知异构图注意网络(简称IHGAT)用于欺诈交易检测。它采用HTIN作为输入,预测支付交易是否为欺诈。
      • 过程:
        • 首先,我们用基于序列的模型对每个意图节点进行编码,因为它具有序列行为的性质。
        • 然后,考虑到意图不同的交易节点由于其很少出现或内在异常而对欺诈交易的识别产生不同的影响,采用基于注意机制的序列模型对意图相邻的交易节点进行聚集。
        • 最后,采用多头图注意层在事务邻居之间聚合和传递有用的信息。在一个大规模的真实数据集上进行了离线和在线模式的验证,结果表明了所提模型的有效性。
    • 相关工作

      • 2.1欺诈交易检测:
        • 传统的欺诈交易检测方法通常将每笔交易视为一个独立的实体,并通过基于交易相关数据的统计特征来训练监督模型[4,30)。例如,[4]试图通过支持向量机、随机森林和逻辑回归来检测信用卡欺诈。然而,这些方法依赖于精细的功能工程,很难有效地捕捉用户行为方面的变化。最近,基于序列的深度模型被提出用于检测欺诈交易,该模型直接处理用户行为序列[5,28,31]。举例来说,[31]提出了一种利用循环神经网络处理用户活动序列的欺诈早期检测方法。[28]定义了一个双层结构,用于根据用户的事件序列捕获分层信息。[5]提出了一个完整的RNN框架,用于实时检测欺诈行为,其中支付被视为一个交错序列。[17]将序列行为数据重组为表示用户意图的树状结构,并将基于序列的模型扩展为用于欺诈事务检测的树状神经方法。然而,这些现有的工作不能在事务之间建立交互。在这篇文章中,我们设计了一个图状结构来关联不同的然后,提出了一个图神经网络来求解,它与现有的工作正交。
        • 2.2图神经网络
          • 近年来,图神经网络得到了广泛的关注,出现了许多具有代表性的著作[9,14,24]。作为一项开创性的工作,[14]提出了一种可扩展的在图结构数据上进行半监督学习的方法,称为图卷积网络(GCN)。[9]提供了一个通用的归纳框架,它利用节点特征信息有效地为以前不可见的数据生成节点嵌入。[24]提出了图注意网络(GAT),该网络利用隐藏的自我注意层来学习指定邻居中不同节点的不同权值。图神经网络在各个领域也得到了广泛的应用,如推荐[25,27]、文本分类[29]、用户分析[6]、机器翻译[2]、异常检测[15]等。例如,[29]基于词共现和文档词关系为语料库构建文本图,然后提出文本图卷积网络用于文本分类任务。[27]将会话序列建模为图结构数据,并提出SR-GNN用于项目推荐。[6]提出了一种基于半监督方式的异构图学习的用户概要建模方法。在这项工作中,我们将图神经网络用于欺诈交易检测,这是一个迫切的应用于电子商务平台的风险管理。
    • 3.概念和首选项
      • 在本节中,我们介绍了异构交易意图网络,并制定了欺诈交易检测问题。在此之前,我们将介绍几个与我们的问题公式相关的概念。
        • 定义1。行为序列。事务𝑇与行为序列S={𝑠1,𝑠2,···,𝑠𝑛}相关联,该行为序列由按时间顺序排列的行为名称表示。𝑠𝑖∈S表示一个行为名称,这是一个网站的网页,和𝑛表示s的长度。例如,一个用户的行为序列如图2(a)所示,其中每个行为名称是指一个特定的网页,例如,家庭、个人页面,支付,等等。
        • 定义2。行为树。行为树T,首先是在[17]中定义的,是一个由行为树节点组成的树状数据结构。一个行为树节点𝑝=(𝑖𝑑,𝑛𝑎𝑚𝑒,𝑝𝑎𝑟𝑒𝑛𝑡_𝑖𝑑),其中𝑝.𝑖𝑑是该节点的唯一标识,它由从0.𝑝开始自动递增的整数组成。𝑛𝑎𝑚𝑒表示与可以在树中复制的节点相关联的行为名称。(没看懂)𝑝.𝑝𝑎𝑟𝑒𝑛𝑡_𝑖𝑑是指对𝑝的父节点的识别。对于根节点,其𝑝𝑎𝑟𝑒𝑛𝑡_𝑖𝑑被设置为0。
        • 例如,如图2(b)所示,其中根节点表示为(0,Home,0),最左边的叶节点表示为(2,产品列表,1)。我们可以根据[17]提出的行为序列S构造相应的行为树T。更多的细节可以参考[17],由于空间的限制,我们省略了它们。图2:行为序列和相应的行为树和用户意图的一个示例。

        • 定义3:用户意图。在[17]之后,行为树中的每个分支都表示一个本地用户的意图。因此,给定一个行为树T,我们通过将树枝上的连续节点从根节点取到叶节点,直接获得用户意图I={𝑰1,𝑰2,···,𝑰𝑘}。𝑘表示用户意图的数量,也是行为树上的分支数量。每个用户意图𝑰𝑖={𝑖1,𝑖2,···,𝑖𝑚}由从根节点到叶节点的节点的行为名称表示,其中𝑚表示行为树分支中的节点数。请注意,每个行为序列都有一个关于用户意图的顺序,这等于在对应的行为树上从左到右的分支的顺序。我们将在我们提议的IHGAT中使用这样的订单信息。例如,四种不同的用户意图用不同的颜色标记,如图2(b).的底部所示第一个“意图1”显示为{Home,搜索,产品列表},它对应于行为树的最左边的分支。最后一个“意图4”是{主页,个人页面,设置,帐户切换},它对应于最右边的分支。
        • 定义4。异构的交易意图网络。将异构交易意图网络(HTIN)记为G={V、E},其中V和E分别为节点和边。节点集V由事务节点和用户意图节点组成。边集E包含两种类型的边,即事务-事务边E𝑡𝑡和事务-意图边E𝑡𝑖。E𝑡𝑡是基于事务节点的属性上的共现关系而创建的。为了保证边缘E𝑡𝑡的可靠性,我们采用了滑动窗口,并基于领域专家知识将其大小𝑙设置为3天。E𝑡𝑖根据事务节点和意图节点的从属关系进行连接。
        • 例如,图1(b)展示了一个HTIN的示例,包括5个事务节点和4个用户意图节点。E𝑡𝑡中的边用实线标记,E𝑡𝑖中的边用虚线表示。欺诈交易检测的问题制定。在HTIN上的欺诈交易检测通常被认为是一个二元节点的分类问题。给定每个交易的HTING={V,E}和相应的标签𝑦∈{0,1},其中1表示欺诈交易,否则为0表示,我们的目的是训练一个模型,并预测测试集中的一个交易节点为欺诈的概率。
    • 方法

      • 在本节中,我们将详细介绍我们提出的IHGAT模型。首先,通过嵌入层和基于序列的编码来建模用户意图。然后,利用配备了LSTM的注意机制对交易节点的意图邻居进行聚合,考虑到意图的顺序信息是欺诈检测的必要条件。最后,采用多头图注意层对事务邻居之间的交互消息进行聚合和传递。该模型的总体体系结构如图3所示。
      • 初始化意图节点:
        • 由于每个意图节点都由几个顺序的用户动作组成,所以我们首先通过一个基于序列的模型来初始化每个意图节点的表示,如图3(a).所示具体来说,对于类序列意图节点𝑰={𝑖1,𝑖2,···,𝑖𝑚},低维表示矩阵𝑰𝐸被嵌入层捕获如下:

        • 然后采用LSTM对用户意图表示矩阵𝑰𝐸进行处理:

        • 其中,𝑰𝐻={𝒊𝐻1,𝒊𝐻2,···,𝒊𝑚𝐻}为隐藏状态序列,使用最后一个时间步长𝒊𝑚𝐻作为意图𝑰的表示,记为𝒉𝐼。

      • 意图感知的异构图形注意网络:
        • 接下来,我们将介绍如何在IHGAT中推导出事务节点的表示形式。针对异构事务意图网络G={V,E},根据其意图邻居N𝑖𝐼和事务邻居N𝑖𝑇更新图G中事务节点𝑖的表示。整个过程有两个阶段。首先,利用基于注意机制的基于序列的模型对𝑖的意图邻居进行聚合。在此基础上,提出了一个多头图注意层用于事务邻居的聚合。
        • 更详细地说,在我们初始化意图节点的表示后,我们可以得到𝑖的意图邻居的表示序列,表示为𝑯𝑖𝐼={𝒉𝐼1,𝒉𝐼2,···,𝒉𝐼𝑣},其中𝑣是节点𝑖的意图邻居数。这里的𝑯𝑖𝐼的顺序是与相应的行为树中从左到右的分支顺序相一致。为了获取意图邻居的顺序信息,采用了一个LSTM如下:

          • 其中,e𝑯𝑖𝐼={e𝒉𝐼1,e𝒉𝐼2,···,e𝒉𝐼𝑣}为隐藏状态序列,e𝒉𝐼𝑗表示意图邻居节点𝒉𝐼𝑗的隐藏状态,其中为1≤𝑗≤𝑣。

        • 然后,我们采用注意机制,将所有隐藏状态合并为一个浓缩的表示如下:

          • 其中,𝑾𝐼为学习的可训练矩阵。𝛼𝑖𝑗是注意力权重,它度量一个意图邻居𝑗对事务节点𝑖的重要性。ˆ𝒉𝐼𝑖表示意图邻居的聚合表示,作为事务节点𝑖的当前表示,记为𝒉𝑇𝑖。整个过程如图3(b).所示
        • 然后对事务节点𝑖的事务邻居N𝑖𝑇进行聚合,其中𝑯𝑇𝑖={𝒉𝑇1,𝒉𝑇2,···、𝒉𝑇𝑞}表示事务邻居的表示集,𝑞为节点𝑖的事务邻居的个数。事务节点𝑖的最终表示法是通过一个多头图注意操作[24]来计算的。该操作的定义公式如下:

          • 其中,𝒉𝑇𝑖是事务节点𝑖的表示,而𝒉𝑇𝑗∈𝑯𝑇𝑖是事务邻居表示之一。𝑾𝑇和𝒂都是可学习的权重。在这里,我们首先连接线性变换的表示,其中∥表示连接,然后取向量𝒂的点积,最后应用一个LeakyReLU。𝛼′𝑖𝑗是使用softmax函数的标准化注意分数,e𝒉𝑇𝑖表示来自邻居的聚合表示
        • 并根据注意分数进行缩放。为稳定学习过程,采用了多头注意机制如下:

          • 7其中K是head的数量,hik是由第K个注意机制计算的,T采用平均方法计算最终表示hi,如图3 (c)所示。

          • 图3:我们提出的模型IHGAT的总体架构。

    • Model Training
      • 将意图和事务邻居聚合后,将得到的表示ˆ𝒉𝑇𝑖输入多个完全连接的神经网络和一个具有s型单元的回归层,如下所示:

        • 其中,𝑾𝑝为权值向量,𝑏𝑝为偏差,MLP(·)表示多个全连接层的操作,如图3(d).所示这里的𝑝是交易的预测欺诈概率。
      • 我们的模型是在具有正则化方法的交叉熵损失下进行训练的。损失函数为:

        • 其中𝑦为基本真相,𝜃为所提模型的参数集,𝜆为正则化器参数,D为训练数据集。
    • EXPERIMENTS

      • 在本节中,我们在一个大规模的真实工业数据集上进行了广泛的实验,以研究我们提出的模型IHGAT的有效性。首先,我们验证了欺诈交易检测任务的性能,并进行了消融测试,以证明我们的模型中每个组件的有效性。然后我们仔细观察数据,分析主要超参数的影响。最后,我们通过案例可视化来演示了我们的方法的可解释性。我们在遵守安全和隐私政策的前提下,从阿里巴巴集团提供的一个在线电子商务平台上收集了一个大规模的工业数据集。然后,我们随机抽取127万笔交易(2020/05月01日至2020/05/31日)进行培训,31万笔交易(2020/06/01日至2020/06月7日)进行测试。其中交易159万笔,其中8085笔为欺诈交易,占0.51%。统计信息见表1。对于每个事务,我们回溯用户在过去24小时内的行为,并将行为序列的最大长度限制为200。在我们的数据集中有312种不同的行为名称,如主页、个人页面、搜索、我的订单等,这与在线电子商务交易服务中的网页相一致。使用行为树,总共生成了17万名用户意图,如{主页、搜索、产品列表}、{主页、个人页面、修改密码}等。基于该数据集,我们构建了异构交易意图网络,共包含176万个交易和意图节点,共21.93百万的交易意图和交易-交易边缘。实验中我们的HTIN的统计信息如表2所示。

      • 5.2基线:(最近的一些基于序列的方法以及消融实验)
      • 5.3评判指标:AUC和R@P𝑁(表示当精度率等于𝑁时的召回率。我们设置了𝑁=为0.9,这表明了检测顶级欺诈交易的能力。AUC和R@P𝑁越高,说明该方法的性能越高。)
      • 5.4细节:变压器通过位置嵌入、多头注意、残余结构等综合技巧,获得了比CNN更好的R@P0.9和相似的AUC。不同方法的性能比较。所有方法的最佳结果都用粗体字体表示。∗表示三种类型的基线的最佳性能,最后三行对应于所提议的方法与每种类型的最佳基线相比所获得的改进的百分比。列“All”表示在整个测试数据集上的比较,其他的是在按行为序列长度分组的不同测试子集上。例如,(40,80]表示这一组中测试行为序列的长度大于40,不超过80。

        • 一般来说,最先进的基于树的方法的性能优于基于序列的模型,这说明了所提出的行为树的重要性。GAT通过利用掩蔽的自我注意层获得了比GraphSAGE更好的性能。此外,基于图形的方法优于这些基于序列和基于树的模型。如前所述,这些观察结果表明,在不同阶段精心建模用户意图和同时捕获交易事务交互是有效的。
      • 可视化,
        • 除了改进模型的性能外,对意图邻居和事务邻居的关注也在一定程度上提供了对结果的可解释性。例如,我们可视化一个欺诈事务To的注意权重,如图7所示。To的行为序列从𝐼1到𝐼5分为5个意图,如图7所示(一个)。图7 (b)的左半部分To显示意图的邻居的注意值,我们可以清楚地观察到𝐼2和𝐼4获得更高的价值0.3516和0.3787,分别。我们发现这两种意图与我们在反欺诈场景中的常识相一致。对于𝐼2来说,诈骗者经常通过扫荡无良商家提供的二维码,直接进入产品详细信息页面,因此缺乏之前的搜索和浏览行为。同时,欺诈者需要与商家分享报价页面,以确认欺诈产品。我们的IHGAT强调了这一意图。𝐼4是潜在欺诈者的一种直观模式,因为他们倾向于经常切换账户,以避免平台的识别规则。同时,欺诈者需要与商家分享优惠页面,以确认欺诈产品。我们的IHGAT强调了这一意图,因为它是异常的。、图7(b)的右半部分显示了𝑇0的事务邻居,即𝑇0to𝑇4及其对应的注意值。请记住,事务节点本身也属于其事务邻居。从结果来看,虽然我们观察到𝑇0对自身的最高权重为0.5037,但𝑇2得到的第二高值为0.2444。我们观察了更靠近𝑇2和𝑇0之间的边缘,发现这条边缘是由相同的交易评论建立起来的。根据我们的反欺诈知识,欺诈者可以选择一个特定的交易评论作为密码,与他们的同伙沟通。这两种交易之间的这种相关性可能是进一步识别𝑇0异常的不可或缺的线索。
        • 行为序列长度的影响:
          • 我们推测其原因是复杂的用户意图建模在较长的序列组中起着更重要的作用。随着行为序列长度的增加,大多数模型的性能在开始时有明显改善,然后在一定程度上趋于平缓。当序列长度大于120时,基于序列、基于树和基于图的方法的性能都会显著下降。例如,CNN在最后一组(160,200人)中遇到了悬崖般的下降。我们认为,原因是,远程行为给这个数据集中的任务带来了噪音,因为它们距离支付太远了。综上所述,我们提出的模型IHGAT得益于用户意图、注意机制和异构交易意图网络的构建,在不同的序列长度上获得了最好的结果,并在较长的序列上取得了显著的改进。
      • 在线实验
        • 最后,在阿里巴巴集团提供的一个电子商务平台上进行了在线实验。为了平等,我们对一个月的62万笔交易(从2020年207/01到202020/07/31)进行在线A/B测试,以测试我们的模型与在我们真实系统中成熟运行的LICTree-LSTM1。结果如表4所示,同时也采用AUC和R@P0.9作为指标。与LICTree-LSTM模型相比,我们提出的方法IHGAT方法在所有指标上都有了显著的性能提高。AUC比LICTree-LSTM高1.66%,R@P0.9同时高31.47%,这与离线比较一致。

    • 结论

      • 在本文中,我们调查了欺诈交易的检测,这对电子商务平台的发展至关重要。为了精心建模用户意图并利用事务级交互,我们设计了一个异构交易意图网络,并提出了一个基于图的神经模型IHGAT来求解。首先,我们通过分割相应的行为序列来获得用户意图,并使用基于序列的模型对用户意图进行建模。然后采用带有注意机制的序列模型对目标交易的意图邻居进行聚合。最后,我们继续通过一个多头图注意层来聚合事务邻居。整个模型通过交叉熵信号监督的端到端方式进行训练。在真实数据集上的实验表明,该模型在欺诈交易检测任务中是有效的,并且可以为结果提供良性的可解释性。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值