推荐系统笔记4-建立大规模分类模型

分类问题就是寻找一个超平面,分开不同标签的数据集。

一、分类模型应用

1.1、点击率预估模型
1.1.1、 传统的以统计特征来做点击率预估,即用前几天的统计来做下一天的点击率预测,如下式所示:
在这里插入图片描述
其中ad_ctr表示历史的具体广告点击,cate_ctr表示一个具体的属性类别,可能包含多个ad类别,显然,当具体的广告数过小时,点击率不具备统计意义,所以需要用cate_ctr代表ad_ctr;
1.1.2、 模型做点击率预估,包括Logistic regression或者DNN等等,如下图所示:
在这里插入图片描述
1.1.3、 一般线上CTR预估系统示例如下:
在这里插入图片描述
也就是将一些数值特征用GBDT做离散化处理(GBDT具备组合特征能力),然后拼接原来的类别特征,使用FM训练模型并提取高阶特征,再次用LR训练ctr模型;

1.2、用户偏好预测
基于ItemCF的推荐算法调用示意图如下:
在这里插入图片描述
上述推荐算法的核心是三个部分,match->rank->rerank,其中这个算法会存在一个Trigger Selection Problem(触发选择问题)?这个问题是指物品冷启动吗(这里不甚理解)?那么我们可以借助用户偏好模型来帮助解决上面的问题;
用户偏好模型的作用主要是预测用户下⼀个浏览或者购买的类目、用户性别预测、用户年龄预测等,假设是物品冷启动问题,且预测用户下一个浏览的类别是A,如果新物品B和A相似,那么将B推荐给用户;
那么如何构造用户偏好模型呢?可以将其抽象化为基于时序行为的二分类模型(用户-商品对,标签喜欢-不喜欢),对于二分类模型,就涉及到特征部分,一般作如下处理:

  • 统计量、变化类特征(人工组合)、序列类模型(部分自动组合).

  • 分析先行:比如对于⼀些商品trends变化和目标相关性进行分析.

    • 人工组合特征: x 1 ∗ x 2 , x 1 / x 2 … x1*x2, x1/x2… x1x2,x1/x2
    • 部分自动组合方式 − > G B D T / R F / F M / N N
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值