前端采集到的原始数据通常来说是数量庞大的流水记录,这种数据隐藏信息杂乱无章,无法直接提供有价值的信息。不管是拿来做策略字段、机器学习或是评分卡建模,都要先进行数据清洗。
以下汇总整理了一些特征工程常用的方法,也是我经常用到的:
转载自:
http://www.zhihu.com/people/ethan-92-58
前端采集到的原始数据通常来说是数量庞大的流水记录,这种数据隐藏信息杂乱无章,无法直接提供有价值的信息。不管是拿来做策略字段、机器学习或是评分卡建模,都要先进行数据清洗。
以下汇总整理了一些特征工程常用的方法,也是我经常用到的:
转载自:
http://www.zhihu.com/people/ethan-92-58