SIGIR’20阿里巴巴利用Domain Adaptation在long-tail item上的实践
Domain Adaption应该是前几年CV里比较火的topic,这几年在推荐里也逐渐被应用了。。。 本文给分享的是阿里巴巴在SIGIR’2020上的一篇文章——《ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance》利用DA解决long-tail问题,提升模型表现。文中提到该方法已经在阿里实际业务上部署过,取得了不错的效果。
摘要&贡献
大部分ranking的模型都是基于被展示的items(大部分为hot items)进行训练,然后却被用来在整个displayed 和non-displayed items空间里进行检索和推荐(大部分non-displayed的为long-tailed items)。由于样本选择偏差,所谓的long-tailed items所学的特征表示也就是不充分(或者说有偏差的),这就导致了在这一部分长尾数据上表现比较差。
所谓长尾与否就可以根据其被展示的频率进行划分。本文作者对两个公开的数据集进行了分析,分别是MovieLens和CIKM Cup 2016 datasets,发现被展示过的it