论文题目: RSLIME: An Efficient Feature Importance Analysis Approach for Industrial Recommendation Systems
论文地址: 暂无
论文发表于: IJCNN 2019(CCF C类会议)
论文大体内容:
本文主要介绍了爱奇艺团队用一个类似于LIME[1]的算法——RSLIME(Recommen- dation System Boosted Local Interpretable Model-Agnostic Explanations Method)来解释其推荐算法的特征重要性。相比LIME算法,RSLIME是其工业实现的版本,使用了Map-Reduce的思想去解决multi-case的累计feature importance计算。
Motivation:
在推荐系统中使用DNN模型,能取到很好的效果,但是有一个问题是DNN模型很难进行特征重要性分析,导致推荐团队在特征工程/结果分析的时候很难对特征部分进行有效分析。
Contribution:
本文作者提出使用类似于LIME的算法——RSLIME来解决这个问题,并给出工业界的实现方法。
1. 爱奇艺推荐团队在小视频推荐中遇到的4大难题是新鲜度、冷启动、多样性、兴趣转移;
2. 在Recall-Rank的推荐架构中,出现问题的时候,往往Recall可以很容易解释,Rank很难解释。如一个视频在某路召回中为什么能够出现,关注其trigger即可,但是为什么这个视频能排上来,这就需要对特征重要性分析,才能很好的解释,而这一点,在DNN模型中,是比较难分析的;
3. 本文作者提出RSLIME算法,有以下特性:
①与模型无关;
②输入越多,估计越准确;
③对稀疏特征高效;
4. 爱奇艺推荐团队的小视频Rank模型如下,类似于DeepFM,但是加上了预训练的GDBT模型的输入到FM中;
5. 特征重要性分析方法包括:
①信息增益;
②主成分分析(PCA);
③AUC;
6. 架构如下,包括single case和multi-case;
实验
7. RSLIME需要回答3个问题:
①能否清晰地解释推荐原因;
②特征重要性能否准确地表示;
③能否帮助特征选择;
8. Dataset
①爱奇艺推荐团队实际场景的数据;
9. Baseline
①GBDT;
10. Metric
①AUC;
11. 实验结果
①可以根据TopN的正向feature和负向feature,看出一个视频推出的原因,这里包含3个最重要的特征:short-term preference(近期看过的相似的视频)、发布时间、long-term preference(长期兴趣);最负向的特征是短时间内看过的不相似的视频;
②通过GBDT得出的Top10 feature importance与RSLIME得出的基本一致;
③S3(用户last 3个session的兴趣)和S5(last 5个session的兴趣)作为特征都对AUC产生positive的影响,S3比S5效果好,AUC的变化趋势和RSLIME得出的特征重要性结论一致;
参考资料:
[1] https://blog.csdn.net/John159151/article/details/94363740
[2] https://zhuanlan.zhihu.com/p/70416523
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!