CTR
CTR预测就是对用户是否点击广告进行预测,其实可以看成二分类问题,即点和不点。
logistics回归(LR):
-
logistics输出的是概率,可以较为直观的解释用户点击广告的几率
-
计算目标函数的复杂度O(N),计算速度快,所以比较适合处理大数据
-
没有考虑特征之间的相关性,没有特征进行组合
-
为了提高模型性能,在模型训练之前,需要做很多的特征工程
GDBT+LR:
使用GDBT的输出作为LR的输入
- 使用GDBT可以组合特征,增强特征的表达能力
- 通过控制GDBT中树的个数和每颗树的树叶个数来对数据进行降维
Facebook经典模型LR+GBDT理论与实践 《Practical Lessons from Predicting Clicks on Ads at Facebook》
FM:
FM通过对每个特征都学习一个隐变量,从而考虑到特征之间的关系。
- 考虑特征之间的关系,增强了模型的泛化能力
- 通过对目标函数巧妙的分解合并,可以O(N)时间复杂度下完成
- 适合处理稀疏数据。相对来说SVM就不能用来处理稀疏的数据。
补充:FM一般结合GDBT来提高模型性能,即用GDBT的输出作为FM的输入