最近在学习CTR预测,在此做个总结,便于以后回忆。
CTR预测就是对用户是否点击广告进行预测,其实可以看成二分类问题,即点和不点。因此,自然会想到用logistics回归来完成这个任务。
logistics回归(LR):
优点:
1、logistics输出的是概率,可以较为直观的解释用户点击广告的几率
2、计算目标函数的复杂度O(N),计算速度快,所以比较适合处理大数据
缺点:
1、没有考虑特征之间的相关性,没有特征进行组合
2、为了提高模型性能,在模型训练之前,需要做很多的特征工程
GDBT+LR:
使用GDBT的输出作为LR的输入
优点:
1、使用GDBT可以组合特征,增强特征的表达能力