项目实战：用户留存相关性指标(论错误的相关性矩阵使用与IV值应用）

最新推荐文章于 2024-04-19 09:41:57 发布

千与千寻楚

最新推荐文章于 2024-04-19 09:41:57 发布

阅读量621

点赞数

分类专栏：项目实战文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_44634840/article/details/113838974

版权

本文探讨了在分析用户留存相关性时，使用pandas corr()函数的错误，指出留存率是分类变量，不应直接与连续变量进行pearson相关性计算。作者提出使用IV值作为替代方案，因为它不需要数据正态分布，并分享了手动计算和自动化处理的代码。同时提醒，高IV值可能反映因果关系，需谨慎解读。最后，强调了结果可视化的重要性，以利于业务理解和应用。

摘要由CSDN通过智能技术生成

业务：用户留存与哪些指标有相关性？

这个题目听起来听常见，其实有很多误区。

错误❌：比如网上很多文章直接提议，相关性还不简单？直接调用pandas里面自带的corr()函数,Y（留存）用0，1表示，然后用seaborn直接画热力图，一目了然呀!

代码以及效果如图：
由于数据问题，此图直接从其他网上截取

import pandas as pd
import seaborn as sns
sns.heatmap(dc1.corr(),xticklabels=dc1.corr().columns,yticklabels=dc1.corr().columns
          ,annot=True)

实际以上大错特错，因为留存与否（0，1）是分类变量，pandas自带的corr()是默认pearson即为自变量与因变量都需要是连续变量，而且只限定在正态分布的情况下。

另外，业务看这个热力图真的实在很头疼，对他们来说理解非常费劲。大部分实际商业分析场景下，数据都不是正态分布（我所接触的绝大多数是右偏严重）。

思考：

业务指标层面
可虑过7天内登入天数，次数，时长，30天内登入次数，天数，时长，涨粉数，

最低0.47元/天解锁文章

千与千寻楚

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录