1.推荐物料来源
1.1 原始数据来源
根据平台属性不同,分为ugc,pgc,ogc
来源上:自己生产或者爬去
1.2 内容审核
把低质、敏感以及需要过滤的内容过滤,不进入可推荐内容库
1.3打标
给内容打标,比如keyword,实体词,tag等,方便文章显式分发
2.推荐方式
2.1显式推荐
2.1.1热点推荐
2.1.2根据keyword/实体词/tag推荐/类别
2.1.3根据用户画像推荐
2.1.4根据用户applist
2.2隐式推荐
2.2.1 FM/xgboost
2.2.2 w2v
2.2.3 graph2vec,
2.2.4user_cf, item_cf
2.2.5 swing
2.2.6 MF/svd/slim/FISM
2.2.7 RankSim
2.2.8 DSSM/DeepMatch
2.2.9序列推荐
2.2.10 基于gan推荐
2.2.11基于强化学习推荐
2.2.12 其他模型的U2U和I2I召回
3.排序(粗排或者精排)
粗排和精排的目标是一致的,区别在特征和模型结构,粗排相对少一些,关键看成本和目标的平衡
模型包括ctr,完播,时长,cvr等
信息流推荐中时长是决定用户阅读时间部分,直接影响广告收入,当然ctr、完播和留存等影响着长期收益,所以都要兼顾
多目标学习
3.1 样本加权
比如模型目标是ctr,把完播样本权重看作2