CIKM 2023最佳应用论文:多时间尺度分布预测的用户表征学习方法

4285ebd908e9568431688900e80c0291.gif

©作者 | 蚂蚁机器智能部

来源 | 机器之心

由美国计算机学会 ACM 主办的 CIKM 2023 学术会议在英国伯明翰举行,大会吸引了 8000+ 学术从业者参加,并从 235 篇应用研究方向(applied research track)的投稿论文中,评选出了本届最佳应用论文奖,来自蚂蚁集团的用户行为表征模型研究论文获得了该奖项。

237a6fef56ba3e446a7b9111e6131f16.png

用户行为表征建模和现在大家熟知的语言模型有很多相似之处,都是从海量的数据中,通过神经网络模型对序列数据进行表征,不同之处在于前者是对用户行为序列进行学习,后者是对语言序列进行学习。那该论文中的用户行为表征模型有什么独特之处呢?

目前用户行为表征预训练的工作主要借鉴自然语言处理,构建 Masked Behavior Prediction (MBP) 或 Next Behavior Prediction (NBP) 任务来进行模型训练,这些方法在 LLM 的训练中显示出强大的威力。

然而与人类语言遵循相对规范的语法结构 / 标准不同,用户的行为序列存在很大的随机性。例如,当小朋友新开学需要购买一批文具产品时,对于单个文具的购买顺序是相对随机的,可能先买书包,再买练习本,笔等,也可能随心排列组合出现任意顺序。过去的研究工作也表明,仅用 mask 部分行为或下一个行为的方法来构建预训练任务,难以学到鲁棒的用户行为表征。

c1cb2ba755d9b5b95c157410ca4bc241.png

82e5352f8bd7ebbbc13b1a37e1dad154.png

在无数种行为的可能性中,虽然用户的下一个具体行为难以琢磨,但若我们预测用户在一段时间内是否会发生某一个 (种) 行为往往具备更大的可能性。即虽然单个行为无法预测,但用户的行为分布在一段时间内相对稳定,这也符合人类行为具备一致性这一朴素常识。

基于该发现,我们提出了多时间尺度分布预测的用户表征学习方法 (Multi-scale Stochastic Distribution Prediction,MSDP),通过从全域用户行为中挖掘出更本质的信息,提升用户行为表征的通用性。在这些工作的基础上,团队构建了 Unibehavior - 用户统一行为表征框架,帮助金融风控,保险等业务极大的提升用户的风险区分度,高效支持多样化下游场景建模。研究论文获得CIKM 2023最佳应用论文奖。

18c238785f04713314f993c71da924f3.jpeg

87d1b920ddcc2ccb98b56453aaa42ce8.png

论文题目:

Robust User Behavioral Sequence Representation via Multi-scale Stochastic Distribution Prediction

论文链接:

https://dl.acm.org/doi/10.1145/3583780.3614714

论文所阐述的用户行为表征建模成果主要由蚂蚁集团基础智能部(NextEnv)- 机器智能团队和蚂蚁集团信贷事业群风险管理部 - 信贷风险团队共同完成,并在蚂蚁金融风控的多个业务场景得到了实践检验,研究代码计划将开源。

f93837d1724727d98fb8b8de3969602d.png

背景

在过去几年的工作中,我们通过层次化的序列建模等技术挖掘用户行为序列中的风险信息,帮助金融风控、保险等业务的众多场景提升了风险识别能力。在支持业务的过程中,我们也逐步认识到金融风控场景中不同业务场景的差异较大,针对各场景单独建立的模型仅关注场景相关的用户特性(例如还款概率预测关注用户行为中好的方面,而反欺诈模型更偏重挖掘用户行为坏的方面),难以学到跨场景通用、泛化性好的行为表征。

针对该问题,我们尝试打造通用的用户表征模型,提升所学到的行为表征在多个业务场景与任务下的通用性,同时提高支持不同业务场景的效率。

在当前工作中,我们基于人类行为在一定的时间范围内具备一致性这一朴素常识,提出了多时间尺度分布预测的用户表征学习方法 (MSDP),通过预测用户在未来一段时间内的行为分布代替原有的 Next Item (Behavior) Prediction 任务,并基于人的行为包含不同的周期性的特点,设计了不同尺度的时间窗口随机采样。

和原有方法相比,学习用户不同时间段的行为分布这一任务设计,极大的提升了习得表征的鲁棒性,对下游不同任务具备更好的泛化能力。具体方案与模型效果详见下文。

a86f9956b03eef8bbeb56355dae1278c.png

方法介绍

0f345917aa78701cf3aedde431465d08.png

▲ 图1. 多尺度随机分布预测框架图

2.1 问题定义

将用户 u 发生在时间 (0, T] 内长度为 t 的行为序列 s 定义为如下形式:

d81d9cb872c3b5ed540b818f204189fd.jpeg

05053c36767f53bfb36eb3c96374e382.jpeg表示行为序列中的第 i 个行为,用户的行为有 K 种离散值构成。我们的目标为设计自监督的任务构造预训练模型,从序列aebfc50afb8d52b88f782da10635b386.jpeg中抽取行为序列表征向量f190776710e32f20cd05189bed5b3b7d.jpeg。如图 1 所示,预训练任务主要通过多尺度随机分布预测(Multi-scale Stochastic Distribution Prediction) 用于学习鲁棒的序列表征,并设计对比学习任务作为模型正则化的方法。下文将对方法进行详细介绍。

2.2 多尺度分布预测

用户行为的多尺度分布预测包含 3 个部分:

  • 预训练任务:预测用户未来一段时间内的行为分布。

  • 训练方法:多尺度随机训练,以不同 size 的时间窗口作为 prompts 学习用户行为中的不同周期信息。

  • 对比学习正则化项:避免模型过拟合到预测未来行为分布上。

2.2.1 分布预测

给定发生在时间 (0, T] 内的行为序列0ac11aa7b98a81e9fd4372553093c919.jpeg,我们通过用户发生在时间窗口 (T, T+W] 内的行为作为自监督信号。如前文所述,用户的行为由于随机性与噪声的原因,准确预测未来 (T, T+W] 的特定行为是比较困难的,但由于用户行为在时间上具有一致性,整体的行为分布是可预测的。

具体的,以用户的 K 种行为在未来的时间窗口期 (T, T+W] 内发生的概率分布作为预测目标,ground-truth 标签可以表示为,W 表示观测的时间窗口,作为 prompt 输入给模型。整体预测行为分布的损失函数可以表示为:

e3118c0c0f90d8189dd3130779978d91.jpeg

其中fec4c8279b145a9ba193a1fe5735219c.jpegbf113f152c61def3a7d5acc49abe122d.jpeg分别表示针对第 k 种行为的 ground-truth 标签与预测概率,3715454dfd97f426a50778ef231571f2.jpeg是行为分布预测模型6145935157ee02337eee8bb9c074ce9e.jpeg的输出结果,51b4c731a1f6d5d9fa3995a62ce94ac9.jpeg则是行为序列表征的中间层 embedding,直接作为下游任务的输入使用。

2.2.2 多尺度提示训练

时间窗口 W 的设定对用户行为表征c10e8de6448387dc3eed4c3214140c30.jpeg在下游任务中的效果有很大的影响。如果使用固定的时间窗口,当下游任务需求与预测的时间窗口接近的情况下,所学习的用户行为表征能有较好的效果,但若下游任务与预测的时间窗口差异较大时,用户行为表征的应用效果可能大打折扣。例如,设定 W 为 30 天时,所学得的用户行为表征,应用在 “预测用户未来 30 天是否还款” 这一任务上,要好于在 “预测用户未来 60 天是否还款” 这一任务上的表现。

为了支持业务上的灵活使用和高效扩展,我们需要用户行为表征具备更强的通用性 (对于不同的下游任务都能有较好的效果)。常规方法使用多任务训练的形式,即同时针对多个时间窗口的行为分布进行预测,但如果要穷举完所有可能的时间窗口,又会引起任务数的急剧膨胀,为模型学习带来困难。

为了解决该问题,我们对每个样本都随机生成 N 个不同的时间窗口 W,将 W 作为 prompt 结合用户的行为序列8d01d33a2b606974ff7c8cae2011e4e1.jpeg,以及 W 下的 ground-truth 标签0d07f1f99c004b521683d8b170eb7654.jpeg构造新的增广样本67622a445799ea746a9c5c3e1f7bf529.jpeg。其中每个 W 都从一个均匀分布中随机采样:

540978089ba754ea72d4aab86be32fc0.jpeg

其中d96fb019e0fc17b247bc52fb1debc59a.jpegc684e6f306a3cf0a04db7535f1f862df.jpeg为设定的最小、最大窗口尺寸参数。

2.2.3 对比正则化

除了行为分布预测的自监督任务之外,我们还设置了一个对比学习的任务作为正则化项,避免模型只是过拟合到预测未来的行为上,而忽略了用户行为序列中的隐层信息。具体的,我们随机 mask 掉行为序列中的若干个行为表征 e,令经过序列模型编码后的序列表征ac969ffa6ddce4d862218d9077856900.jpeg要与原始未做 mask 的序列表征232b8f8a9a7c4ae4331a4aff26218a87.jpeg尽量相似,目的是令模型更能从用户的行为序列中挖掘出整体的表征信息来表示该用户的风险或兴趣偏好。

具体的目标函数设定与 SimSiam 中的类似,最大化291d73f1eeb81d0c7780c2bea008af55.jpeg91df1f7c3562c8b5b5569b5d964740dc.jpeg的余弦相似度,即:

936269dcc6218940fefdcdeecc995b3c.jpeg

其中1545cda9fbb7713268a5a4037649ffae.jpeg表示经过 mask 部分行为后的序列表征。

2.2.4 目标函数

当我们从均匀分布中随机采样 N 个不同的时间窗口时,总体的目标函数由多尺度随机分布预测项与对比正则化项构成,如下所示:

4d6a16cf2105bac7045c9dd08f8e181c.jpeg

其中 λ 为非负的系数,用于控制对比正则项的强度。

2.3 下游应用

dc32f28aa2269f5a5f5dfd973790e72d.png

▲ 图2. 用户行为表征训练以及下游应用方式

如图 2 所示,使用用户在 (0, T+W] 时间内的行为用作用户行为表征的训练数据,其中 (T, T+W] 的行为分布作为自监督信号,并将 (0,T] 的行为序列f447cb9c5d2cf9b49038380b6fbe3517.jpeg编码为序列表征向量06e92f9c3b00115fee0320407b0deaed.jpeg。在下游业务实际应用时,则可以使用最新的行为(W 到 T+W) 产出表征向量02aff88186768d3d88aea11e23874473.jpeg,并将981f8d5a5ce9132a9b52cfe337401f06.jpeg用作不同下游任务dd76df7ba700b5c7e27da0d661af8eaf.jpeg的输入特征。

d00cab51f63a976c2bd762bf91718bfe.png


实验

为了验证方法的有效性,我们使用了 1 个业务数据集以及 1 个公开数据集来构造下游任务,并与 NBP 与 MBP 的预训练方法产出的表征做了对比。

3.1 实验设定

为公平比较,模型训练中统一使用参数相同的 transformer 的 encoder 作为序列编码器,下游任务统一使用 1 个包含两层全两阶层 (维度为 512, 256)的 DNN。

3.1.1 数据集

1)业务数据集:用户行为序列数据为其在蚂蚁域内的资金行为,例如线下支付、淘系支付、借呗还款、支用等。我们选取了 top200 高频的作为预测目标。使用用户的还款概率预测作为下游任务,针对逾期用户在未来的若干天内是否还款,具体设置了 5 种下游任务,预测用户在未来 5 天,15 天,30 天,60 天,90 天的是否会有还款行为。

2)天猫数据集:用户行为序列数据包含用户在天猫的点击、收藏、购买的商品,下游任务设定为预测用户未来若干天内最感兴趣的商品类别(使用点击次数最多的商品作为最感兴趣的),具体来说,分别预测用户在未来 5 天,15 天,30 天,60 天,90 天最感兴趣的商品类别。

3.1.2 Baselines

3.1.2.1 单任务

对比的 baseline 方法分为两种:一种是经典的 MBP 与 NBP,例如 BERT4Rec 为预测用户被 mask 的行为,PTUM 在 MBP 的基础上还包含了预测用户 next k 个行为的 NBP 任务。其他的方法除了 MBP 与 NBP 预训练任务外,还包含对比学习的任务,例如 UserBERT,以及与行为分布预测类似,但是为预测一个固定时间段行为分布的方法 SUMN。

此外,我们还对比了固定一个时间窗口的分布预测方法 static-DP,与 SUMN 的区别在于 DP 的预测目标为行为是否发生,而 SUMN 的需要预测行为的发生频次。

3.1.2.2 多任务

为了对比多尺度提示训练方法的效果,我们也设计了两种多任务的方式作为 baseline。即 Multi-task SUMN 与 Multi-task DP (MTDP,将 static-DP 改为多任务的形式)。多任务的模型结构都采用 shared bottom 的形式,即在序列 encoder 输出表征0e1220f7816c216ed90994f0e2420a06.jpeg之后为每一个任务设定一个分支,每个分支的结构与单任务的 MLP 参数一致。下游应用的表征仍然为62d1d90d7d38f3ac46ca20eb6651cbd8.jpeg

3.2 实验结果

768d13212aefd2c6354646e24c6cc9ab.png

28704a68d211d7c1661a1b94afdf96a6.png

从表 1 与表 2 的实验结果看,MSDP 在两个数据集上都要优于其他方案。实验结果分析如下:

1)DP vs. MBP 与 NBP:DP 类的预训练方法(包括 static-DP,MTDP,MSDP)都显著优于 MBP 类方法(如 BERT4Rec)或 MBP 与 NBP 结合的方法(如 PTUM),以及当前 SOTA 的用户行为预训练方案(如 UserBERT)。从结果表明 MBP 与 NBP 类的方法由于用户行为中的随机性等问题,不太适合用于构建稳定的用户行为表征,而 DP 类的方法对学习鲁棒稳定的用户行为表征更有帮助的。

2)多尺度提示训练:对比 static-DP 与 MSDP 的结果,使用多尺度提示训练的效果优于固定窗口训练的用户行为表征。对比 MTDP 与 MSDP,MTDP 效果不如 MSDP,分析可能的原因在多任务之间的差异影响了 shared 部分的表征学习,而 MSDP 由于有为窗口参数 W 设置独立的 embedding,可以通过 W 的 embedding 区分不同时间窗口行为分布的差异,因此学习中受任务之间差异的影响更小,同时也能够学到不同任务之间的共性信息。

5d09469dbc1e5447a07678d7ac20205a.png


总结与未来展望

本文主要研究用户行为序列表征预训练这一课题。传统的方法遵循 NLP 中的预训练方式,通过预测特定的 mask 行为(MBP)或未来 k 个行为 (NBP)来设定预测任务。但这两种预训练方法不适用于噪声和随机性较大的用户行为序列建模。基于用户行为具备一致性的假设,我们提出多尺度随机分布预测(MSDP)算法,用于学习更加鲁棒的用户行为序列表征。


MSDP 算法的主要贡献如下:i)提出预测用户在一段时间内的行为分布,代替预测特定的行为;ii)提出了一种多尺度提示训练方法来对不同时间尺度的时间窗口进行采样,用于模型训练。在实际工业场景与业界公开的数据集上,MSDP 都取得了显著的效果。

近期以 ChatGPT 为代表的大模型兴起,让我们更加相信通用人工智能之路的可能。也让我们坚定了,在蚂蚁之内,使用一套通用的建模思路来提升多数据多场景信息融合的信心。

未来我们希望在预训练的基础上,借助 LLM 的能力引入语言模型中丰富的外部知识,利用语义明确的文本构建跨域信息桥梁,持续探索全域建模解决之路。在当下已有工作基础上,以 prompt learning 方法兼顾多场景多任务持续建设用户行为序列统一表征框架 UNIBehavior,实现跨场景中下游业务的快速支持。

更多阅读

d546a597ade1c7bbe22a0ba9ac102a13.png

bcd41e90eba7df40e07d6c8ba721c957.png

9cc8758c6444d3863cecfa86ddb24a3d.png

420c52748f8666581c3eaf9a5ad966ec.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

449b4428e620e128e89e7ad06fab9e6c.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

855797b5f5dcea3c506d694a9263f62f.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值