1. 离散特征
步骤:
-
建立字典:把类别映射成序号
-
向量化:把序号映射成向量
a. one-hot 编码:把序号映射成高纬稀疏向量
b. embedding:把序号映射成低维稠密向量
one-hot 编码
embedding
2.矩阵补充模型 matrix completion
每次更新矩阵a和b的一列,学出矩阵a和b
每一列是一个物品
每一行是一个用户
用绿色位置训练模型,预估出灰色位置的分数,也就是把矩阵元素补全
补全之后可以做推荐,把较高的物品推荐给用户
3.双塔模型
双塔模型输出:预估用户对物品的兴趣
pairwise训练思想:对正样本兴趣尽量大,对负样本兴趣尽量小