Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction
阿里对行为序列的研究可以说已经独领风骚了,前有DIN,后有MIMN,现在又出了这篇SIM。只能说行为序列确实对点击率预估很重要,阿里已经证明,丰富的用户行为数据对工业场景下推荐系统的点击率预估具有很大的价值。MINN已经把序列长度增加到了1000,然而当长度超过1000,MIMN很难准确捕捉用户兴趣了。淘宝23%的用户在过去5个月点击都超过1000个item,所以这篇论文想对任意长度的行为序列进行建模。
下图就是SIM,是个two-stage的策略,每个stage伴随着一个重要的unit,General Search Unit(GSU)和Exact Search Unit(ESU)。
- first-stage: 这一步用GSU在线性时间内,把原始的长序列提取出top-K的子序列,K远远小于原始序列长度。
- second-stage: 这一步用ESU把first-stage提取的top-K子序列作为输入,用一个类似DIN,DIEN的复杂结构精确的提取兴趣。