数据处理
数据西瓜皮
这个作者很懒,什么都没留下…
展开
-
数据处理:计算用户得分进行用户重要性排名
场景说明 假设我们有10000个用户的信息(涉及四个指标,不排除指标之间有相关性),我们希望能够对用户进行重要性排名,找出最重要的用户进行业务上的重点观察(业务方设定这部分用户占总体用户的20%)。四个指标的特性如下:指标名称指标特性单因素排序时的处理方式指标重要级别历史消费金额越大越好降序取前20%****历史违约次数越小越好升序取前20%*...原创 2018-11-04 17:03:14 · 1306 阅读 · 0 评论 -
数据处理技巧
说明:本篇为数据处理技巧的合集,不定期更新。特征选择1.相关分析后指标二选一怎么选?相关分析后我们需要对高度相关的指标组进行处理,选择原则如下:(1)优先留下业务上更重要的指标。比如,历史购买总金额与历史购买次数高度相关了,由于某次分析的目的是寻找重点客户(目标导向很重要,这个需要与业务方进行沟通,统一业务口径),所以这次分析中历史购买总金额指标在重要性上略胜一筹,留下历史购买总金额这个指...原创 2018-11-04 17:28:53 · 271 阅读 · 0 评论 -
缺失值填充:关于年龄特征
不妥之处,欢迎评论指出。缺失值填充这回事我们第一能想到的就是使用0进行填充,但是如果是年龄的话直接使用0进行填充就有点不太靠谱了,那么怎么办呢?情况一:全样本均值填充如果整个样本群体的年龄方差不大,比如整个样本来源于初中生,年龄在13-15岁之间,那么直接使用全样本的均值填充即可。情况二:分类样本均值填充但是真实情况往往不会这么美好,哪怕是初中生也会有急着早读书的学生和可怜巴巴的留级生,...原创 2018-11-04 17:40:49 · 3023 阅读 · 0 评论