策略产品函数方法论——特征

最新推荐文章于 2023-07-06 19:42:37 发布

涵星同学

最新推荐文章于 2023-07-06 19:42:37 发布

阅读量338

点赞数 1

分类专栏：策略产品

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_36972314/article/details/114793581

版权

策略产品专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记，仅做记录，无其他用途，侵删。

在应用机器学习算法模型解决业务问题的场景下，相较于算法工程师关注的特征处理及特征工程，策略产品工作更侧重于对有效特征的选择，以下正文内容分为两个主要部分：一是特征选择的原则，二是特征选择的方法。

1. 特征选择的原则

1.1 注意特征的时效性，不使用未来信息作为模型预测的特征

举个栗子，对于内容风控问题，用户对于内容的投诉动作能否作为输入特征？当然不能，原因有二：一，这类特征是在业务当前场景下无法获取的后置信息；二，后置信息本身携带了部分能影响模型判断的信息，虽然能够提升一定的实验效果但却无法在线上重现。

1.2 注意特征的获取成本

·主要考虑外部数据采购成本及内部数据研发成本。在设计基准策略的阶段可优先使用静态特征，如属性类特征，同时尽可能地收集并逐步引进动态特征，如需要实时获取或频繁维护的用户信息。

1.3 注意特征带来的收益

特征的收益一方面体现在单个特征或一组特征的引入为评估函数带来的提升，另一方面体现在特征的精选对模型稳定性的提升，特征数量的增加往往意味着样本分布的可能性呈指数级增加，经过筛选的特征在一定程度上可以避免过拟合情况的出现，从而提高模型稳定性。

2.特征选择的方法

2.1 基于业务知识的特征选择

除了具备简单的业务常识外，策略产品有时还需要对产品及业务有深刻理解和洞察。如用户风控业务中，用户手机电量分布作为重要特征的考虑基于：正常用户手机电量在各种状态下均有分布，但黑产用户手机因常年在充电处于满电状态，该特征作为系统开放数据可帮助甄别用户。

2.2 基于模型收益的特征选择

又称封装法，即穷举所有特征子集或启发式搜索，不依赖于业务，更具普适性，但多次迭代计算资源消耗较大。

2.3 基于代理指标的特征选择

又称过滤法，通过一些代理指标对特征进行筛选，具体指标可考虑两个方面：一是与特征X本身相关的指标，二是度量特征X与标签Y之间关系的指标。

（1）特征X本身相关的指标

① 覆盖率：特征有效数据覆盖样本的比例。

② 方差：衡量不同样本在同一特征值上的差异，差异性越小则特征反应的信息越少，越缺乏区分度。

（2）特征X与标签Y之间关系的指标

① Pearson相关系数：即两个变量的协方差除以标准差，用来度量两数值变量之间的线性相关性；其等价于经过标准化之后的余弦相似度。

② Fisher得分：得分越高说明特征X在不同类别间差异越大，同一类别内差异越小，即特征的价值越大；可用来度量数值变量特征X与类别变量Y

③ 假设检验与方差分析：如果特征X为类别变量，标签Y为数值变量，可用ANOVA来度量特征X的价值。

④ Pearson卡方检验：若特征X和标签Y均为类别变量，可以计算统计量，当统计量大于某个临界值时，可从统计上得到两个变量具备一定的相关性；统计量从某种程度上可以用来排序或用于选择在标签Y确定的情况下相关性较大的特征X。

⑤ 互信息：用KL散度定义特征X和标签Y的互信息为联合分布P(X,Y)与乘积分布P(X)P(Y)的差异，进而可以反映特征的区分度价值。

过滤法运用代理的统计指标来评估进而筛选有价值的特征，计算快且不依赖于具体的模型。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
策略产品函数方法论——特征

题记：本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记，仅做记录，无其他用途，侵删。在应用机器学习算法模型解决业务问题的场景下，相较于算法工程师关注的特征处理及特征工程，策略产品工作更侧重于对有效特征的选择，以下正文内容分为两个主要部分：一是特征选择的原则，二是特征选择的方法。1. 特征选择的原则1.1 注意特征的时效性，不使用未来信息作为模型预测的特征举个栗子，对于内容风控问题，用户对于内容的投诉动作能否作为输入特征？当然不能，原因有二：一，这类特征是在业务当前场
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。