首先,我们先 了解 一下推荐系统的两个最主要部分:recall(召回)和rank(排序),一般最后还有rerank(根据业务场景和策略规则进行重排序,比如置顶、过滤等)。之 前的一篇文章主要介绍了召回流程 - 58部落帖子推荐系统的抬手动作 ,介绍如何通过不同的策略从海量数据中召回用户感兴趣的帖子作为推荐候选集,但由于不同的策略的评分标准、计算维度等不一致,无法直接推给用户,需要从中各拿出一部分做一个统一的排序,把用户可能最喜欢的帖子放在最上面曝光,这一步叫融合排序。
既然是排序,那么就得有个评分标准,而CTR(click through rate)就是可以作为融合排序模型的目标,称为点击通过率。CTR预估中用的最多的模型是LR(Logistic Regression),称为逻辑斯蒂回归或者对数几率回归。
LR - 对数几率回归
首先了解一下线性回归(linear regression),它是将多个特征进行拟合成一条直线,然后通过该直线预测新的值:
LR是在线性回归的基础上增加了sigmoid函数
,LR通过变换将数值映射到0~1区间,刚好是点击率的范围,可以用来预测用户是否会点击帖子,所以是一个分类问题。下图是sigmoid函数的曲线。
假设0表示反例,用户不点击,1表示正例,用户点击。那么 就是用户点击的概率,x是不同的特征值,y是是否点击的类别。然后构建一个对数几率函数