CIKM 2022|FwSeqBlock: 一种在序列建模中增强行为表征的方法

3c62fb084d6a4aae4ff72f803d1b721c.gif

©作者 | 钱浩

单位 | 北邮 GAMMA Lab

研究方向 | 图神经网络

212d3fa2ceff95e306a0496189ce4f7a.jpeg

论文标题:

Uncovering the Structural Fairness in Graph Contrastive Learning

收录会议:

NeurIPS 2022

论文链接:

https://arxiv.org/abs/2210.03011

节点表示学习对结构公平性有所要求,即在度小和度大节点上都有良好的性能表现。最近研究表明,图卷积网络 (GCN) 常对度小节点的预测性能较差,在广泛存在的度呈长尾分布的图上表现出结构不公平。图对比学习 (GCL) 继承了 GCN 和对比学习的优势,甚至在许多任务上超越了半监督 GCN。那么 GCL 针对节点度的表现又如何呢?是否可能为缓解结构不公平提供新的思路?

3cd42d52d8ebcc1e2e83bc82ca9d5fa6.png

背景

在推荐系统中,对用户兴趣表征的建模已经成为极为关键的环节。在当前的主流工作中,用户兴趣表征 (user interest representation) 的获取主要是通过对用户历史行为表征 (user behavior representation) 聚合 (aggregation) 而得到的 [DIN, DIEN, CAN, Bert4Rec, CSAN]。相较于聚合方法这一类的研究,本文重点研究了如何获得高质量用户历史行为表征,从而更好地增益后续的聚合过程产出准确地用户兴趣表征。

在本文中,我们提出了用户行为表征的计算模块 FwSeqBlock,该模块利用 field memory unit 设计引入了用户历史行为表征与待推荐目标 item 表征间的乘法运算。根据待推荐 item 表征的不同,这样的设计能够动态地从用户历史行为序列中识别关键特征并且滤除不相关的噪声特征。

实验表明,FwSeqBlock 能够在 item 特征数量持续增加的情况下获得稳定的指标增益。同时 FwSeqBlock 具有可插拔的特点,能够无负担地与目前主流 SOTA 序列推荐模型结合并且获得正向的指标增益。

6a7d5f21b0e5e793882d082e5a33d565.png

算法方案


2.1 问题定义

首先令表示用户画像,表示待推荐商品特征。其次,用户的历史反馈行为(如:点击)按照发生的时间正向排序后记作 = [,..,,..,],其中L为最大的用户行为序列长度。本文研究的建模目标为学习一个预估函数对候选集中待推荐商品进行打分排序,为模型结构中的可训练参数。

本文优化以下 Logloss 损失函数,同时通过增加 L2 正则项稳定训练过程:

1bf378a5e536b841db6ae7cd8b320094.png

其中表示所有训练样本集合, 为控制正则项强度的超参数。

2.2 模型结构

f8dad412dd9265b7c81af39aeda41954.png

▲ 图1. FwSeqBlock模型结构图

2.3 输入层

输入层定义了输入特征和 Embedding 过程。如问题定义中所述,输入特征分别由用户画像,商品特征与用户历史反馈行为特征构成。为了有效的存储和计算,稀疏的 one-hot 编码输入特征通过嵌入过程投影到低维密集表示中,如下所示:

c639ec5967d5b171ab3c5b9bb8775476.png

其中, , 分别是用户画像,商品特征与用户第l个历史行为的低维投影表征。需要注意的是,在输入层中商品特征与历史行为共享相同的参数。

2.4 FwSeqBlock

在当前工业界的序列建模应用中,对于用户历史行为表征的聚合主要采用 pooling 或者 shallow transformation 方法。本研究认为以上方案并不能很好的建模行为表征中不同细粒度特征间的关系(如购买品牌与购买时间),从而导致最终的用户兴趣表征的质量较为平庸。

以非参数的 pooling 方法为例,对有限长度的历史行为序列做 sum pooling 容易持续引入不相关的噪声历史表征,而 mean pooling 则容易过度平滑关键的历史行为,均会导致最终的用户兴趣表征质量下降。 

为了解决以上问题,FwSeqBlock 提出利用参数化的 field memory 矩阵来显式的刻画不同细粒度特征之间的重要性。具体地讲,首先我们将商品特征与历史行为表征表示成以下 field-wise 形式:

37e659b5a3fc116777e7c8b59f38e772.png

其中维度,为自定义超参数。为了捕捉用户历史行为与待推荐商品特征之间的交互,我们引入 field memory 矩阵显式地学习不同 field 间的联系,其计算过程如下:

8b31a3bc21e00ca0d3dcac9463c6c223.png

其中为element-wise product。在学习过程中,field memory 矩阵可以认为是一个全局 kernel,根据待推荐商品表征的不同,可以学习并记录用户历史行为表征中关键的模式。在预测推理时,则将待推荐商品的表征转化为关键模式的 indicator function,使其能够 soft-select 用户历史行为表征中相关的关键特征。最终,给定待推荐商品表征,能够较好地刻画行为表征中每个 field 的重要性。

接着,我们引入 field-wise attention 机制动态地聚合单个用户历史行为中重要的表征:

38b93c2d10ec2cdcbd8d060d06245b10.png

其中是可训练的投影矩阵,是非线性激活函数 softmax。在上述 attention 计算中,筛选出重要性强的 field 并且能够减弱不相关 field 对最终用户行为表征的贡献。同时,计算中的 element-wise product 引入了 multiplicative 计算,能够较为有效地刻画 field 特征之间复杂的交互表征。

最后,我们借鉴了 Skip Connection 和 Layer Normalization 的方法,目标是使训练过程更加顺畅同时避免过拟合的风险,计算如下:

22c0528b297d17cee165c39c7a83b290.png

在计算获得后,我们将其维度重新转换至,以便后续的序列操作。

经过以上讨论,FwSeqBlock 聚焦于用户历史行为表征的生成中,具有可插拔的特点,因此可以很方便的与目前 SOTA 序列建模模型相结合。

5c212b2b311b25423e9e4d261fb8ae15.png

实验结果

在本节中,我们在 Alibaba 和 Taobao 的公开数据集和我们的业务数据上测试增加 FwSeqBlock 相对于基准 SOTA 方法的效果。Alibaba 和 Taobao 数据集中,每个用户行为中分别有 6 个和 7 个特征(如:ID,类别,品牌等)。我们的业务数据中,存在 17 个特征包括了 ID,品牌,行为发生时的城市、时间、温度等时空相关的环境特征。最终的评价指标上,我们选择了 AUC 与 Logloss。

3.1 整体效果

如下表所示,在基准方法中增加 FwSeqBlock 模块后,所有方法均能获得一致的指标提升。具体指标上,在 Taobao 数据集(6 个特征)中,FwSeqBlock 能够带来 0.49%~0.94% 的 AUC 增益;在业务数据(17 个特征)中,FwSeqBlock 能够获得更加显著的离线指标 AUC 增益。我们认为这样的实验结果能够充分证明 FwSeqBlock 在用户历史行为表征建模中的有效性。

相比 GRU4Rec、Caser、DIN、Bert4Rec 这样专注于聚合用户行为表征的序列建模方法,在增加 FwSeqBlock 后 AUC 指标提升在 0.49~1.69%。因此,我们认为在聚合方法的研究之外,关注行为表征的质量也非常关键。

相比 CSAN,CAN 这样上线文信息相关的模型,FwSeqBlock 的引入仍可以带来一定的提升,证明了对用户历史行为做 field-wise 建模的有效性。

4d4885e6b1ead6962a9d74ac1dcfe583.png

▲ 表1. 模型整体实验效果表

3.2 消融实验

在消融实验中,我们在业务数据中着重测试了 FwSeqBlock 在历史行为表征生成时的性能。实验中,我们的对比方法选型分别为: 

  • Mean pooling (CSAN) 

  • Sum pooling (CSAN) 

  • Concatenation (Bert4Rec, DIN, DIEN) 

  • Co-Action (CAN) 

实验方案上,我们向不同的对比选型中逐一增加待推荐商品与历史行为的特征(从单独的 ID 到 17 个全部特征)。结果如下图所示,可以看到 FwSeqBlock 的性能一致地超越了所有的对比方法: 

随着特征数量的不断增加 FwSeqBlock 的效果能够稳定地正向增长,其他的对比方案则容易受到噪声的干扰或难以捕捉关键的特征,导致最终用户行为表征恶化。

如模型结构中讨论,非参数化的 sum pooling 引入的噪声使得其表现非常不稳定,同时 mean pooling 也难以处理数量不断增加的特征,导致其表现始终落后 FwSeqBlock 方法。 

Concatenation 方法本质上 additive 的,过往的许多研究已经证明 additive 方法较难捕捉高阶的特征交互。相反,FwSeqBlock 引入了 multiplicative 方法,使得其相比于 concat 方法能够取得更显著的信息增益。

Co-Action 方法尽管能够在特征不断增加中获得一致性的提升,但是其效果仍然逊色与 FwSeqBlock 方法。可能的原因在于 co-action embedding 强调通过记忆不同的特征组合,而 FwSeqBlock 则强调通过参数矩阵对特征交互关系进行泛化。

620644f98f7e0fb9ae7b1a5743b873a9.png

▲ 图2. 消融实验效果图

我们在下图中将参数矩阵的数值进行了可视化,其中越明亮的方块代表数值越大,即不同特征之间的相关性越高。简单观察,我们可以看到类别特征与时间特征更加相关,相反其与空间相关的特征表现相对独立。我们可以认为参数矩阵的学习确实能够动态地分辨不同上下文特征对用户历史行为表征的贡献,最终产出更高准确性的用户兴趣表征,总而增益下游的预估任务。

5e0a75e6f85b71b40009df05bd45050c.jpeg

▲ 图3. 参数可视化图

3.3 线上A/B实验

我们在 2021/7~2021/8 部署了 Bert4Rec with FwSeqBlock 实验,相比基线单独的 Bert4Rec 模型,增加 FwSeqBlock 后线上 PV 点击率相对提升 4.46% 并全量部署。

bd13c6a513bb6052ddc0fd325fc4affe.png

总结


在这项工作中,我们提出了 FwSeqBlock 模块,用于在序列推荐建模中能够更准确地生成用户历史行为表征。我们通过实验验证了 FwSeqBlock 能够在商品与历史行为特征持续增加中获得一致性的提升,同时 FwSeqBlock 模块在加入 SOTA 序列推荐模型后能取得良好的应用效果。

outside_default.png

参考文献

outside_default.png

[1] Qingyao Ai, Keping Bi, Jiafeng Guo, and W. Bruce Croft. 2018. Learning a Deep Listwise Context Model for Ranking Refinement. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2018). [1] Lei Jimmy Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. 2016. Layer Normaliza- tion. CoRR abs/1607.06450 (2016). arXiv:1607.06450

[2] Alex Beutel,Paul Covington,Sagar Jain,Can Xu,Jia Li,Vince Gatto, and Ed H. Chi. 2018. Latent Cross: Making Use of Context in Recurrent Recommender Systems. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (Marina Del Rey, CA, USA) (WSDM ’18). Association for Computing Machinery, New York, NY, USA, 46–54.

[3] Qiwei Chen, Huan Zhao, Wei Li, Pipei Huang, and Wenwu Ou. 2019. Behavior Sequence Transformer for E-Commerce Recommendation in Alibaba. , Article 12 (2019), 4 pages

[4] Junyoung Chung, Caglar Gulcehre, Kyung Hyun Cho, and Yoshua Bengio.2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv:1412.3555 (2014).

[5] Tom Fawcett. 2006. An introduction to ROC analysis. Pattern Recognition Letters 27, 8 (2006), 861–874.

[6] Yufei Feng, Fuyu Lv, Weichen Shen, Menghan Wang, Fei Sun, Yu Zhu, and Keping Yang. 2019. Deep Session Interest Network for Click-through Rate Prediction. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (Macao, China) (IJCAI’19). AAAI Press, 2301–2307.

[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In 2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR).770–778.

[8] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. Session-based Recommendations with Recurrent Neural Networks. arXiv:1511.06939 (2016).

[9] Xiaowen Huang, Shengsheng Qian, Quan Fang, Jitao Sang, and Changsheng Xu. 2018. CSAN: Contextual Self-Attention Network for User Sequential Recommen- dation. In Proceedings of the 26th ACM International Conference on Multimedia (MM ’18). 447–455.

[10] Qi Pi, Weijie Bian, Guorui Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD 2019, Anchorage, AK, USA, August 4-8, 2019, Ankur Teredesai, Vipin Kumar, Ying Li, Rómer Rosales, Evimaria Terzi, and George Karypis(Eds.).ACM,2671–2679.

[11] Qi Pi, Guorui Zhou, Yujing Zhang, Zhe Wang, Lejian Ren,Ying Fan, Xiaoqiang Zhu, and Kun Gai. 2020. Search-Based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction. In Proceedings of the 29th ACM International Conference on Information Knowledge Management (Virtual Event, Ireland) (CIKM ’20). Association for Computing Machinery, New York, NY, USA, 2685–2692.

[12] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. J. Mach. Learn. Res. 15, 1, 1929–1958.

[13] Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, and Peng Jiang. 2019. BERT4Rec: Sequential Recommendation with Bidirectional En- coder Representations from Transformer. In Proceedings of the 28th ACM In- ternational Conference on Information and Knowledge Management (CIKM ’19). Association for Computing Machinery, New York, NY, USA, 1441–1450.

[14] Jiaxi Tang and Ke Wang. 2018. Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM ’18). 565–573.

[15] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. [n. d.]. Attention is All you Need. In Advances in Neural Information Processing Systems. Curran Associates, Inc.

[16] Kai Zhang, Hao Qian, Qing Cui, Qi Liu, Longfei Li, Jun Zhou, Jianhui Ma, and Enhong Chen. 2021. Multi-Interactive Attention Network for Fine-Grained Feature Learning in CTR Prediction. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining (Virtual Event, Israel) (WSDM ’21). Association for Computing Machinery, New York, NY, USA, 984–992.

[17] Guorui Zhou, Weijie Bian, Kailun Wu, Lejian Ren, Qi Pi, Yujing Zhang, Can Xiao, Xiang-Rong Sheng, Na Mou, Xinchen Luo, Chi Zhang, Xianjie Qiao, Shiming Xiang, Kun Gai, Xiaoqiang Zhu, and Jian Xu. 2020. CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction. arXiv: 2011.05625 (2020).

[18] Guorui Zhou, Na Mou,Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep Interest Evolution Network for Click-Through Rate Prediction. Proceedings of the AAAI Conference on Artificial Intelligence 33, 01, 5941–5948.

[19] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu,XiaoMa,Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep Interest Network for Click- Through Rate Prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery Data Mining (London, United Kingdom) (KDD ’18). Association for Computing Machinery, New York, NY, USA, 1059–1068.

更多阅读

a71042526ff5632ab4bbff0744dbea10.png

4829a7ce8d18165ed725b3062d7c5afd.png

75144c862b67e335c58e15ef693aa2c4.png

7383a9868e6fce69ca572e7e676fcca5.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

1f88dbc24c8097842ea13e203ade5b48.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

a1c7bd875ff78009e99fcb090ca01fab.jpeg

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值