[Paper每周读]KDD2016 GLMix: Generalized Linear Mixed Models For Large-Scale

论文链接:GLMix
文章来自于LinkedIn Job Recommendation的团队。文章想说的事情其实很简单,那就是用了一个Generalized Linear Mixed Model,在Job Recommendation的Task上效果还不错。

传统的评分模型,用到Linear Regression Model;
传统的投票模型,用到Logistic Regression Model;
传统的统计模型(类似阿里音乐趋势预测大赛),用到Poisson Regression Model。
User 和 Item 高维度问题,常常用PCA和feature hashing来处理,但是这样的做法有一个问题,就是无法解释原始空间数据。

那么,什么是这个Generalized Linear Mixed Model呢?简单说来,就是作者们认为,对于每一个User,和每一个Job都需要有单独的Coefficients,也就是所谓的Random Effects。当然,还需要有一个全局的Effect。任何一个推荐,都是全局的效果和User-Specific以及Job-Specific的效果的综合考虑。如果一个用户的数据量比较多,那么自然这样的Coefficient就能抓住用户自己的偏好。对于Job,也是同理的。

那么,这么一来,整个模型的参数量就上去了,对于大规模应用来说,传统的Model-Fitting的方法就不适用了。文章提出了基于Spark的Parallel Block-wise Coordinate Descent的办法来学习模型。 用到了cluster的思想来降低I/O cost的负担。
方法见图:
这里写图片描述

那么试验环节就很有意思了,我觉得也很有借鉴意义。简单说来,在Job Recommendation的数据上,以及两个公开的大数据上,GLMix的方法都比纯粹的Logistic Regression要好,同时也比纯粹的Matrix Factorization要好。而在GLMix之上加了MF,额外的好处并不特别明显。当然,这并不意味着MF没有作用了。因为毕竟GLMix是基于Feature的,如果仅有Interaction Data,MF还是非常强劲的Baseline。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值