搜索推荐场景常见的几种特征类型

最新推荐文章于 2024-12-03 09:18:03 发布

frostjsy

最新推荐文章于 2024-12-03 09:18:03 发布

阅读量1.8k

点赞数 1

分类专栏：搜索&推荐文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013069552/article/details/121736767

版权

搜索&推荐专栏收录该内容

22 篇文章

订阅专栏

1、id特征

id稀疏特征，一般会做一个embedding。

2、raw特征

稠密特征，数值类型，一般有3种归一化方法。minmax，zscore，log10

log10：x = x > threshold ? log10(x) : default; zscore：x = (x - mean) / standard_deviation

minmax：x = (x - min) / (max - min)

3、组合特征

不同字段的组合（笛卡尔积），字段一般来自不同的表，比如用户 age特征，和item type特征进行组合；

4、match特征

考虑user，item，category三维情况的匹配值，user：category：item的二重查询匹配，一般为raw型特征。

5、lookup 特征

考虑user，item二维情况的匹配值，user：tem的二重查询匹配，一般为raw型特征。在检索query非一种类别的时候，在query上的统计特征并没有那么明显，因而，只考虑user：item的二重匹配。

6、gbdt模型输出特征

gbdt feature是通过gbdt模型将连续型特征离散化的特征，给定样本和训练好的gbdt模型，gbdt feature输出的是一些离散化特征，它描述了该样本在每棵决策树的第几个叶子节点命中的信息，该信息一般用于LR模型的输入。

对于一个50棵树的决策树，将会输出50个特征

7、overlap feature （文本上的交叉特征）

交叉term的一些计算，譬如，query与item_name之间词是否包含、是否相等、公共term匹配数、公共等等；

8、序列特征

用户的历史特征也是一个很重要的特征，点击序列，购买序列，组成序列的实体可以是商品本身。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。