项目实战:用户留存相关性指标(论错误的相关性矩阵使用与IV值应用)

本文探讨了在分析用户留存相关性时,使用pandas corr()函数的错误,指出留存率是分类变量,不应直接与连续变量进行pearson相关性计算。作者提出使用IV值作为替代方案,因为它不需要数据正态分布,并分享了手动计算和自动化处理的代码。同时提醒,高IV值可能反映因果关系,需谨慎解读。最后,强调了结果可视化的重要性,以利于业务理解和应用。
摘要由CSDN通过智能技术生成

业务:用户留存与哪些指标有相关性?

这个题目听起来听常见,其实有很多误区。

错误❌:比如网上很多文章直接提议,相关性还不简单?直接调用pandas里面自带的corr()函数,Y(留存)用0,1表示, 然后用seaborn直接画热力图,一目了然呀!

代码以及效果如图:
由于数据问题,此图直接从其他网上截取

import pandas as pd
import seaborn as sns
sns.heatmap(dc1.corr(),xticklabels=dc1.corr().columns,yticklabels=dc1.corr().columns
          ,annot=True)

实际以上大错特错,因为留存与否(0,1)是分类变量,pandas自带的corr()是默认pearson即为自变量与因变量都需要是连续变量,而且只限定在正态分布的情况下。

另外,业务看这个热力图真的实在很头疼,对他们来说理解非常费劲。大部分实际商业分析场景下,数据都不是正态分布(我所接触的绝大多数是右偏严重)。

思考:

  1. 业务指标层面
    可虑过7天内登入天数,次数,时长,30天内登入次数,天数,时长,涨粉数,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值