MIMN——Multi-channel user Interest Memory network
上周敏哥写了,LTR: 从RankNet到LambdaMart 作为最早的文章预览读者,跟敏哥讨论了一些其中的问题,例如最小化熵与最大化效用的关系。发现一个事情:只是阅读,不写不细扣,知识总是零散着,大脑觉得懂了,但是实际细节很容易没看到没注意。因此自己也要开始工作学习的记录行程了。
本篇原文:《Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction》
文章目录
1. what
本文介绍的是用户长序列建模在CTR预估领域的使用。
文中长序列:用户交互物品数量超过50。
2. why
2.1 为什么要对用户长序列建模?
- 使用短序列建模容易带偏系统,信息不全面。用户兴趣多样,例如在淘宝上 我们对各种品类都有自己的兴趣。而短序列往往兴趣较为集中,遗忘了用户的长期兴趣。
- 有线下评估,随着使用的用户序列长度增加,auc相应也在上涨。
2.2 用户长期行为建模方法现状
-
pooling method,以sum/average pooling 以及DIN/DIEN为代表.
-
sequence method 以LSTM/GRU为代表
2.3 存在的问题
- storage : 无论是以上哪种方法,都需要将用户原始的行为序列存储,对于存储是极大的开销(TB级别)
- latency : 如果存储可以解决,那问题还好,更加重要的是线上响应时间,随着序列长度的增加,线上耗时基本是线性增加,这是不能接受的。
2.4 MIMN 如何解决这两个问题
- 借鉴memory network——NTM(神经图灵机)的思想,并优化,即MIMN
- 独立部署UIC(User Interest Cent