机器学习面试：交叉特征

我家大宝最可爱

已于 2023-10-06 10:13:14 修改

阅读量424

点赞数

分类专栏：机器学习面试文章标签：推荐系统

于 2022-02-14 20:54:08 首次发布

本文链接：https://blog.csdn.net/he_wen_jie/article/details/122928959

版权

1.困惑之源

半年前第一次做推荐算法，无意中碰到了一个问题，我使用LR模型对用户和商品进行联合打分，其中使用了所谓的交叉特征，这个问题思考了大半年终于有了一些思路。
问题是这样的，我统计了不同用户在不同类目上的点击率，以此作为所谓的交叉特征，并且将点击率做了一个线上表，当用户请求时，直接查询用户历史所有的类目偏好。其中 $u c$ 表示用户（user）和类目（cate）的交叉特征，这里为点击率，下标表示用户id和类目id

用户	数码	女装	美妆
$u_1$	$uc_{11}$	$uc_{12}$	$uc_{13}$
$u_2$	$uc_{21}$	$uc_{22}$	$uc_{23}$
$u_3$	$uc_{31}$	$uc_{32}$	$uc_{33}$
$u_4$	$uc_{41}$	$uc_{42}$	$uc_{43}$

但是受到了其他同事的质疑，他说交叉特征是确定某个用户和某个类目之后，再去确定的某一个特征，例如在我们针对用户 $u_1$ 推送了类目 $c_3$ ，此时可以确定一个交叉特征 $uc_{13}$ ，这一个特征才是交叉特征。我觉得非常奇怪，为什么不可以把用户所有类目的偏好放到LR模型中呢？

2.特征处理

我将特征分层了三个部分

用户特征，包括用户性别，登陆次数，RFM等
商品特征，包括商品是否包邮，商品价格，商品类目等
交叉特征，这里主要用户和类目的交叉

为了简单，假设这里用户特征只有性别，商品特征只有类目，交叉特征就是性别和类目，由于都是离散特征，需要做onehot编码

类目	$c_1$	$c_2$	$c_3$
数码	1	0	0
女装	0	1	0
美妆	0	0	1

性别	$s_1$	$s_2$
男	1	0
女	0	1

性别x类目	$s_1c_1$	$s_1c_2$	$s_1c_3$	$s_2c_1$	$s_2c_2$	$s_2c_3$
男x数码	1	0	0	0	0	0
男x女装	0	1	0	0	0	0
男x美妆	0	0	1	0	0	0
女x数码	0	0	0	1	0	0
女x女装	0	0	0	0	1	0
女x美妆	0	0	0	0	0	1

3. LR模型

我之前最熟悉的是LR模型，可解释性强，有大规模训练库，并且可以快速上线。特征处理好之后就可以直接输入到LR模型之中了
$y=\sigma(x)=\frac{1}{1+e^{-\sum w_ix_i}}$
做一个非常有趣的变换
$f(y)=ln(\frac{y}{1-y})=\sum w_ix_i$
为什么做这个变换呢？我们知道推荐系统的目标是排序，预测概率是为排序服务的，例如我们有两个物品 $i_1,i_2$ ，如果有 $y_1>y_2$ ，那么给用户推荐商品的时候就是先推 $i_1$ ，然后再推 $i_2$ ，这个没有任何问题。有趣的地方来了，如果 $y_1>y_2$ ， $f(y_1)$ 和 $f(y_2)$ 的大小关系是什么呢？
$\begin{aligned} f(y_1)-f(y_2)&=ln(\frac{y_1}{1-y_1})-ln(\frac{y_2}{1-y_2})\\ &=ln(\frac{y_1-y_1y_2}{y_2-y_1y_2})>0 \end{aligned}$

所以当 $y_1>y_2$ 时，有 $f(y_1)>f(y_2)$ ，函数变换之后并不会影响大小顺序。这样做有什么好处呢？原本我们需要去计算 $\sigma(x)$ ，然后去比较概率大小，现在我们直接计算 $\sum wx$ 后排序就可以了，最重要的是线性函数有更强的可解释性。
之后可以将特征进行分组，例如分为用户特征，商品特征，交叉特征等等，可以写成
$\sum w_ix_i=\sum w_jx_j+\sum w_kx_k +...$

3.无交叉特征

特征现在有性别和类目，我们先不使用交叉特征直接训练一个LR模型试试。
$\begin{aligned} f_u(i)&=\underline{w_{s1}*s_1+w_{s2}*s_2} +\underline{ {w_{c1}*c_1+w_{c2}*c_2}+w_{c3}*c_3}\\ &= ctr_{user} + ctr_{item} \end{aligned}$

当模型训练完成之后，各个维度的权重就固定下来了。针对不同的用户，相同类目的权重是一样的，没有任何差异性

假如有一个用户 $u_1$ ，有三个待推荐的商品，分别属于三个类目 $i_1:c_1=1,i_2:c_2=1,i_3:c_3=1$ 。我们首先对用户 $u_1$ 推荐商品，
$\begin{aligned} i^*&=argmax(f(u_1,i_1),f(u_1,i_2),f(u_1,i_3))\\ &=argmax(ctr_{u_1}+ctr_{i1},ctr_{u_1}+ctr_{i2},ctr_{u_1}+ctr_{i3})\\ &=argmax(w_{s1}+w_{c1},w_{s1}+w_{c2},w_{s1}+w_{c3})\\ &=argmax(w_{c1},w_{c2},w_{c3}) \end{aligned}$

最低0.47元/天解锁文章

我家大宝最可爱

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习面试：交叉特征

1.困惑之源半年前第一次做推荐算法，无意中碰到了一个问题，我使用LR模型对用户和商品进行联合打分，其中使用了所谓的交叉特征，这个问题思考了大半年终于有了一些思路。问题是这样的，我统计了不同用户在不同类目上的点击率，以此作为所谓的交叉特征，并且将点击率做了一个线上表，当用户请求时，直接查询用户历史所有的类目偏好。其中ucucuc表示用户（user）和类目（cate）的交叉特征，这里为点击率，下标表示用户id和类目id用户数码女装美妆u1u_1u1uc11uc_{11}uc11
复制链接

扫一扫