搜索推荐场景常见的几种特征类型

1、id特征

id稀疏特征,一般会做一个embedding。

2、raw特征

稠密特征,数值类型,一般有3种归一化方法。minmaxzscorelog10

log10:x = x > threshold ? log10(x) : default;
zscore:x = (x - mean) / standard_deviation

minmax:x = (x - min) / (max - min)

3、组合特征

不同字段的组合(笛卡尔积),字段一般来自不同的表,比如用户 age特征,和item type特征进行组合;

4、match特征

考虑user,item,category三维情况的匹配值,user:category:item的二重查询匹配,一般为raw型特征。

5、lookup 特征

考虑user,item二维情况的匹配值,user:tem的二重查询匹配,一般为raw型特征。在检索query非一种类别的时候,在query上的统计特征并没有那么明显,因而,只考虑user:item的二重匹配。

6、gbdt模型输出特征

gbdt feature是通过gbdt模型将连续型特征离散化的特征,给定样本和训练好的gbdt模型,gbdt feature输出的是一些离散化特征,它描述了该样本在每棵决策树的第几个叶子节点命中的信息,该信息一般用于LR模型的输入。

对于一个50棵树的决策树,将会输出50个特征

7、overlap feature (文本上的交叉特征)

交叉term的一些计算,譬如,query与item_name之间词是否包含、是否相等、公共term匹配数、公共等等;

8、序列特征

用户的历史特征也是一个很重要的特征,点击序列,购买序列,组成序列的实体可以是商品本身。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值