业务:用户留存与哪些指标有相关性?
这个题目听起来听常见,其实有很多误区。
错误❌:比如网上很多文章直接提议,相关性还不简单?直接调用pandas里面自带的corr()函数,Y(留存)用0,1表示, 然后用seaborn直接画热力图,一目了然呀!
代码以及效果如图:
import pandas as pd
import seaborn as sns
sns.heatmap(dc1.corr(),xticklabels=dc1.corr().columns,yticklabels=dc1.corr().columns
,annot=True)
实际以上大错特错,因为留存与否(0,1)是分类变量,pandas自带的corr()是默认pearson即为自变量与因变量都需要是连续变量,而且只限定在正态分布的情况下。
另外,业务看这个热力图真的实在很头疼,对他们来说理解非常费劲。大部分实际商业分析场景下,数据都不是正态分布(我所接触的绝大多数是右偏严重)。
思考:
- 业务指标层面
可虑过7天内登入天数,次数,时长,30天内登入次数,天数,时长,涨粉数,