1、id特征
id稀疏特征,一般会做一个embedding。
2、raw特征
稠密特征,数值类型,一般有3种归一化方法。minmax
,zscore
,log10
log10:x = x > threshold ? log10(x) : default;
zscore:x = (x - mean) / standard_deviation
minmax:x = (x - min) / (max - min)
3、组合特征
不同字段的组合(笛卡尔积),字段一般来自不同的表,比如用户 age特征,和item type特征进行组合;
4、match特征
考虑user,item,category三维情况的匹配值,user:category:item的二重查询匹配,一般为raw型特征。
5、lookup 特征
考虑user,item二维情况的匹配值,user:tem的二重查询匹配,一般为raw型特征。在检索query非一种类别的时候,在query上的统计特征并没有那么明显,因而,只考虑user:item的二重匹配。
6、gbdt模型输出特征
gbdt feature是通过gbdt模型将连续型特征离散化的特征,给定样本和训练好的gbdt模型,gbdt feature输出的是一些离散化特征,它描述了该样本在每棵决策树的第几个叶子节点命中的信息,该信息一般用于LR模型的输入。
对于一个50棵树的决策树,将会输出50个特征
7、overlap feature (文本上的交叉特征)
交叉term的一些计算,譬如,query与item_name之间词是否包含、是否相等、公共term匹配数、公共等等;
8、序列特征
用户的历史特征也是一个很重要的特征,点击序列,购买序列,组成序列的实体可以是商品本身。