特征工程基本框架

2.6 推荐领域

在这里插入图片描述

2.6.1 User-Item特征

在这里插入图片描述

2.6.1.1 时间序列上的特征

  1. 时间序列中User累积对某个Item的行为次数(绝对兴趣值),不同的时间序列可以构造不同的特征
  2. 时间序列上User对Item是否有重复的行为(深度兴趣值)
  3. 时间序列上User对Item是否有行为(是否感兴趣)
  4. 时间序列上User对Item的行为分布(相对兴趣值)

2.6.1.2 时间特征

  1. User对Item的最后行为时间(最近时间),可以归一化为一个0—1的标量,越接近于1表示User对这个Item具有越强的新鲜度
  2. User对某个Item的平均行为时间间隔(行为频度)用来刻画User对Item的活跃频率,时间间隔越小说明对用户的吸引力越大
  3. User对Item的行为时间间隔方差(行为稳定性)可以用来刻画User对Item的喜好的稳定性。

2.6.1.3 趋势特征

  1. User一天对Item的行为次数/User三天对Item的行为次数的均值,表示短期User对Item的热度趋势,大于1表示活跃逐渐在提高,以此类推。

2.6.2 User特征

2.6.2.1 时间序列上的特征

  1. 时间序列上User行为次数总和(User总活跃),在划分成三个时间细粒度的情况下,可以翻译成三个特征,分别是一天,三天和七天User的行为总和,来表示User在当前时间段上的活跃。
  2. 时间序列上User重复行为次数(用户深度活跃)用来刻画用户真实的活跃深度。
  3. 时间序列上User有行为的Item的数量(Item覆盖度),可以用来刻画用户的活跃广度,来表示用户是否有足够的意愿尝试新的Item。

2.6.2.2 时间特征

主要从三个角度(最近时间,行为频度,行为稳定性)来刻画用户的活跃度,和上面类似。

2.6.2.3 趋势特征

和上面类似。

2.6.2.4 属性特征

主要用来刻画用户的一些属性特征包括性别、年龄、学历以及使用机型等。

2.6.3 Item特征

2.6.3.1 时间序列上的特征

  1. 时间序列上Item行为次数总和(Item的行为热度),不同的时间序列可以构造不同的特征
  2. 时间序列上Item被重复点击次数(Item的热度深度)用来刻画Item真实的热度深度
  3. 时间序列上和当前Item发生行为的User的数量(去重)(热度广度)刻画了Item的热度的广度。
  4. 时间序列上Item的点击和曝光的比值(User不去重)—CTR,刻画了Item在相同曝光下被点击的概率。
  5. 时间序列上Item的点击和曝光的比值(User去重)—CTR,刻画了Item在相同曝光下被点击的概率,剔除了某些特殊情况某个User对某个Item的行为过于集中的情况。

2.6.3.2 时间特征

和上面类似。

2.6.3.3 趋势特征

和上面类似。

2.6.3.4 属性特征

2.6.4 User和Item之间的属性分布特征

2.6.4.1 时间序列上Item在User属性(如年龄)上的分布特征

  1. 通过计算Item在年龄段上的行为数量(User去重和不去重)来刻画Item在不同年龄段上的热度
  2. Item在年龄段上的行为数量/Item总的行为数量来表示User在年龄上的热度分布
  3. Item在不同年龄段上的点击和Item在相应的年龄段上的曝光之间的比值来刻画Item在不同的年龄段上的CTR。

2.6.4.2 时间序列上User在Item属性上的分布特征

  1. 通过计算User在不同的ItemType上的行为数量来刻画Use对不同的ItemType的喜好
  2. 计算User在不同的ItemType上是否有行为来刻画在时间段上User是否对当前的Item的类型感兴趣
  3. 计算User的行为在不同的Item上的分布来刻画对不同的ItemType的喜好程度
  4. User在一段时间内,是否在ItemType上有重复行为,来刻画用户是否对当前ItemType深度感兴趣。

2.6.4.3 时间序列上ItemType在Age上的分布特征

  1. 通过计算ItemType在不同年龄段上的行为数量(User不去重和不去重)来刻画ItemType在不同年龄段上的热度
  2. ItemType在不同年龄段上的行为数量/ItemType在年龄段上的用户数量来刻画当前ItemType对这个年龄段的User的吸引程度
  3. ItemType在不同年龄段上的点击和ItemType在相应的年龄段上的曝光之间的比值来刻画ItemType在不同的年龄段上的CTR。

2.8 文本特征提取

2.8.1 单词包法

  1. 标记字符串并为每个可能的标记提供整数ID,例如使用空格和标点作为标记分隔符。
  2. 计算每个文档中标记的出现次数。
  3. 使用出现在大多数示例/文档中的重要性递减标记进行规范化和加权。

2.8.2 计算权重的方法

2.8.2.1 Tf–idf 项权重

tf-idf ⁡ ( t , d ) = tf ⁡ ( t , d ) × idf ⁡ ( t ) \operatorname{tf-idf}(\mathrm{t}, \mathrm{d})=\operatorname{tf}(\mathrm{t}, \mathrm{d}) \times \operatorname{idf}(\mathrm{t}) tf-idf(t,d)=tf(t,d)×idf(t)
idf ⁡ ( t ) = log ⁡ 1 + n 1 + df ⁡ ( t ) + 1 \operatorname{idf}(t)=\log \frac{1+n}{1+\operatorname{df}(t)}+1 idf(t)=log1+df(t)1+n+1

三、特征选择(Feature Selection)

在这里插入图片描述

3.1 过滤法(filter)

先选择后训练。按照评估准则对各个特征进行评分,然后按照筛选准则来选择特征。

3.1.1 评估准则

  • 线性-Pearson相关系数
  • 卡方值
  • 互信息和最大信息系数(MIC)
  • 距离相关系数
  • 方差:删除方差不足阈值的特征;
  • F-p值
  • Relief相关统计量: δ j = ∑ i ( − d i f f ( x i j , x i , n h j ) 2 + d i f f ( x i j , x i , n m j ) 2 ) \delta^j=\sum_i(-diff(x_i^j,x_{i,nh}^j)^2+diff(x_i^j,x_{i,nm}^j)^2) δj=i(diff(xij,xi,nhj)2+diff(xij,xi,nmj)2),其中 x i j x_i^j xij表示第i个样本在属性j上的取值, x i , n h x_{i,nh} xi,nh为“猜中近邻”(near-hit),即 x i x_i xi最近邻的同类样本,而 x i , n m x_{i,nm} xi,nm为“猜错近邻”(near-miss),即 x i x_i xi最近邻的异类样本, d i f f ( x a j , x b j ) = ∣ x a j − x b j ∣ diff(x_a^j,x_b^j)=|x_a^j-x_b^j| diff(xaj,xbj)=xajxbj,若属性j为离散型且该值不为0,则取1,这里的x已经规范化到[0,1]。另外,对于多分类问题,有以下变体,称为Relief-F。

在这里插入图片描述

3.1.2 筛选准则

  • 选择多少个最好的
  • 选择百分之多少最好的
  • 选择FPR(假阳性率),即误判概率不超过多少的。
  • 选择FDR(错误发现率)不超过多少的。
  • 选择FWE(系列错误率)不超过多少的。

3.2 包裹(包装)法(wrapper)

3.2.1 LVW(Las Vegas Wrapper)算法

在这里插入图片描述

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 技术工厂 设计师:CSDN官方博客 返回首页