策略产品函数方法论——特征

本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记,仅做记录,无其他用途,侵删。

在应用机器学习算法模型解决业务问题的场景下,相较于算法工程师关注的特征处理及特征工程,策略产品工作更侧重于对有效特征的选择,以下正文内容分为两个主要部分:一是特征选择的原则,二是特征选择的方法。

1. 特征选择的原则

1.1 注意特征的时效性,不使用未来信息作为模型预测的特征

举个栗子,对于内容风控问题,用户对于内容的投诉动作能否作为输入特征?当然不能,原因有二:一,这类特征是在业务当前场景下无法获取的后置信息;二,后置信息本身携带了部分能影响模型判断的信息,虽然能够提升一定的实验效果但却无法在线上重现。

1.2 注意特征的获取成本

·主要考虑外部数据采购成本及内部数据研发成本。在设计基准策略的阶段可优先使用静态特征,如属性类特征,同时尽可能地收集并逐步引进动态特征,如需要实时获取或频繁维护的用户信息。

1.3 注意特征带来的收益

特征的收益一方面体现在单个特征或一组特征的引入为评估函数带来的提升,另一方面体现在特征的精选对模型稳定性的提升,特征数量的增加往往意味着样本分布的可能性呈指数级增加,经过筛选的特征在一定程度上可以避免过拟合情况的出现,从而提高模型稳定性。

2.特征选择的方法

2.1 基于业务知识的特征选择

除了具备简单的业务常识外,策略产品有时还需要对产品及业务有深刻理解和洞察。如用户风控业务中,用户手机电量分布作为重要特征的考虑基于:正常用户手机电量在各种状态下均有分布,但黑产用户手机因常年在充电处于满电状态,该特征作为系统开放数据可帮助甄别用户。

2.2 基于模型收益的特征选择

又称封装法,即穷举所有特征子集或启发式搜索,不依赖于业务,更具普适性,但多次迭代计算资源消耗较大。

2.3 基于代理指标的特征选择

又称过滤法,通过一些代理指标对特征进行筛选,具体指标可考虑两个方面:一是与特征X本身相关的指标,二是度量特征X与标签Y之间关系的指标。

(1)特征X本身相关的指标

① 覆盖率:特征有效数据覆盖样本的比例。

② 方差:衡量不同样本在同一特征值上的差异,差异性越小则特征反应的信息越少,越缺乏区分度。

(2)特征X与标签Y之间关系的指标

① Pearson相关系数:即两个变量的协方差除以标准差,用来度量两数值变量之间的线性相关性;其等价于经过标准化之后的余弦相似度。

② Fisher得分:得分越高说明特征X在不同类别间差异越大,同一类别内差异越小,即特征的价值越大;可用来度量数值变量特征X与类别变量Y

③ 假设检验与方差分析:如果特征X为类别变量,标签Y为数值变量,可用ANOVA来度量特征X的价值。

④ Pearson卡方检验:若特征X和标签Y均为类别变量,可以计算统计量,当统计量大于某个临界值时,可从统计上得到两个变量具备一定的相关性;统计量从某种程度上可以用来排序或用于选择在标签Y确定的情况下相关性较大的特征X

⑤ 互信息:用KL散度定义特征X和标签Y的互信息为联合分布P(X,Y)与乘积分布P(X)P(Y)的差异,进而可以反映特征的区分度价值。

过滤法运用代理的统计指标来评估进而筛选有价值的特征,计算快且不依赖于具体的模型。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值