分类问题就是寻找一个超平面,分开不同标签的数据集。
一、分类模型应用
1.1、点击率预估模型:
1.1.1、 传统的以统计特征来做点击率预估,即用前几天的统计来做下一天的点击率预测,如下式所示:
其中ad_ctr表示历史的具体广告点击,cate_ctr表示一个具体的属性类别,可能包含多个ad类别,显然,当具体的广告数过小时,点击率不具备统计意义,所以需要用cate_ctr代表ad_ctr;
1.1.2、 模型做点击率预估,包括Logistic regression或者DNN等等,如下图所示:
1.1.3、 一般线上CTR预估系统示例如下:
也就是将一些数值特征用GBDT做离散化处理(GBDT具备组合特征能力),然后拼接原来的类别特征,使用FM训练模型并提取高阶特征,再次用LR训练ctr模型;
1.2、用户偏好预测
基于ItemCF的推荐算法调用示意图如下:
上述推荐算法的核心是三个部分,match->rank->rerank,其中这个算法会存在一个Trigger Selection Problem(触发选择问题)?这个问题是指物品冷启动吗(这里不甚理解)?那么我们可以借助用户偏好模型来帮助解决上面的问题;
用户偏好模型的作用主要是预测用户下⼀个浏览或者购买的类目、用户性别预测、用户年龄预测等,假设是物品冷启动问题,且预测用户下一个浏览的类别是A,如果新物品B和A相似,那么将B推荐给用户;
那么如何构造用户偏好模型呢?可以将其抽象化为基于时序行为的二分类模型(用户-商品对,标签喜欢-不喜欢),对于二分类模型,就涉及到特征部分,一般作如下处理:
-
统计量、变化类特征(人工组合)、序列类模型(部分自动组合).
-
分析先行:比如对于⼀些商品trends变化和目标相关性进行分析.
- 人工组合特征: x 1 ∗ x 2 , x 1 / x 2 … x1*x2, x1/x2… x1∗x2,x1/x2…
- 部分自动组合方式 − > G B D T / R F / F M / N N ->GBDT/RF/FM/NN <