推荐系统之特征工程

特征工程

1. 幸存者偏差与后验消费数据

"幸存者偏差"是一种常见的统计偏差,它发生在我们只观察到"幸存"的样本,而忽略了那些"未幸存"的样本。在推荐系统的上下文中,"幸存者"可能指的是那些已经被消费过的物料,而"未幸存"的可能是那些还未被消费过的物料。

如果我们只用后验消费数据做召回,那么我们可能会忽视那些可能很好但还未被消费过的物料。这就是所谓的"幸存者偏差"。这种偏差可能会导致我们的推荐系统过于倾向于推荐那些已经被证明是受欢迎的物料,而忽视了可能同样优秀但尚未被发现的新物料。

后验消费数据可以用于排序,但是你需要注意避免上述的偏差。你可以通过引入一些对新物料友好的特征或者使用一些能够处理这种偏差的模型来进行排序。

2. 马太效应与新物料

"马太效应"是指"富者愈富,贫者愈贫"的现象。在推荐系统中,这可能表现为那些已经受欢迎的物料会因为被更多地推荐而变得更受欢迎,而那些不太受欢迎或者新的物料则可能因为被忽视而永远不会被发现。

为了缓解这种情况,你可以尝试以下策略:

  • 探索-利用权衡(Exploration-Exploitation Tradeoff):你可以在推荐系统中引入一定的随机性,以便于发现新的、可能受欢迎的物料。这种策略需要在充分利用已知信息(即推荐已知受欢迎的物料)和探索未知(即尝试推荐新的物料)之间找到一个平衡。

  • 冷启动策略:对于新的物料,你可以设计一些特殊的策略来推广它们。例如,你可以基于物料的内容或者其他特性来预测它们的受欢迎程度,或者你可以在一开始就给新物料更多的曝光机会。

  • 使用更复杂的模型:你也可以尝试使用更复杂的模型来预测物料的受欢迎程度。例如,你可以使用深

度学习模型来从物料的内容中提取有用的特征,或者你可以使用强化学习模型来在推荐过程中不断学习和改进。

3. Bias特征

Bias特征,或者称为偏置特征,通常是指那些能够反映某种固有偏好或者趋势的特征。例如,在推荐系统中,用户的年龄、性别、职业等都可以被视为bias特征,因为这些特征可能会影响用户的消费偏好。同样,物料的类别、发布时间、作者等也可以被视为bias特征,因为这些特征可能会影响物料的受欢迎程度。

4. Bias特征的接入

Bias特征可以和其他正常特征一起喂入DNN底层。这是因为DNN是一种非常强大的模型,它可以从各种类型的特征中提取有用的信息。然而,你需要注意的是,不同的特征可能需要不同的预处理步骤。例如,类别特征通常需要进行one-hot编码,而连续特征则可能需要进行标准化。

5. 填充未知的用户偏好

对于未知的用户偏好,一种常见的策略是使用全局平均值或者中位数来进行填充。例如,如果我们不知道一个男性新用户对"体育"这个分类的喜好程度,我们可以使用所有男性用户对"体育"分类的平均喜好程度来进行填充。这种策略的基本假设是,如果我们没有任何关于用户的特定信息,那么我们可以假设他们的行为是平均的。

6. 填充未知的物料后验指标

对于未知的物料后验指标,一种常见的策略是使用全局平均值或者中位数来进行填充。例如,如果我们不知道一个新物料的点击率,我们可以使用所有物料的平均点击率来进行填充。这种策略的基本假设是,如果我们没有任何关于物料的特定信息,那么我们可以假设它的性能是平均的。

7. 特征标准化

对于观看次数、观看时长这样的特征,我们通常会进行标准化,以便于模型的训练。标准化的目的是将特征的分布调整为均值为0,标准差为1的正态分布。标准化的公式如下:

x norm = x − μ σ x_{\text{norm}} = \frac{x - \mu}{\sigma} xnorm=σxμ

其中,

x x x是原始特征值, μ \mu μ是特征的均值, σ \sigma σ是特征的标准差。

8. 计算CTR

CTR(点击通过率)是衡量物料受欢迎程度的一种常见指标,它的计算公式如下:

CTR = 点击次数 曝光次数 \text{CTR} = \frac{\text{点击次数}}{\text{曝光次数}} CTR=曝光次数点击次数

例如,如果一个物料曝光2次,被点击1次,那么它的CTR就是50%。

9. 构建类别特征

对于"某文章过去1天的点击率是10%"这样的特征,我们可以将其转换为类别特征,然后喂入推荐模型。具体的转换方法可能会根据实际情况而变,但一种常见的方法是将点击率分桶。例如,我们可以定义以下几个桶:

  • 点击率小于5%
  • 点击率在5%到10%之间
  • 点击率在10%到15%之间
  • 点击率大于15%

然后,我们可以根据文章的点击率将其分配到相应的桶中。这样,我们就得到了一个类别特征,可以直接喂入模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值