相关性分析在数据分析实践中的应用(python实现)(一)

在商业实践中,很多时候直接获取某一指标的成本是很高的。这种指标的获取可能不仅需要财力物力,还需要超前获得,即在指标数值产生前进行预测。

我们想要的指标较难获得,但与该指标的相关指标可能是比较容易获取到的,并且成本比较低。我们可以用容易获得的指标预测较难获得的指标。

通过一个或多个已知指标预测未知指标,就需要用到相关性分析。常见的相关性分析有皮尔逊(Pearson)相关系数、斯皮尔曼(spearman)相关系数、肯德尔(Kendall)相关系数。这三种相关系数并称为三大统计学相关系数。

01 三大统计学相关系数

三大统计学相关系数计算方法及适用情况如下表所示。
在这里插入图片描述

有了相关系数,我们就可以衡量两个变量的相关程度,但数值达到多少才算强相关呢?一般认为,相关系数r的取值范围与相关程度的判断如下表所示:
在这里插入图片描述
当然,也有以0.7,0.3为界限进行三级划分的:高度相关,中度相关和弱相关。

02 斯皮尔曼系数在数据分析实践中的应用(python实现)

案例:某服装电商商家想通过商品相关关键字的搜索数量来预测商品的销量,现在该商家有一批商品相关关键字的历史搜索数量和销量。部分数据如下表所示:
在这里插入图片描述

未来,该商家想通过一些关键字的实时搜索数量来决定开发哪些新产品。是否可以通过关键字搜索量来预测商品销量呢?

  1. 分析

决定是否可以通过关键字搜索量来预测商品销量的条件是这两个变量是否具有相关性,可以通过相关系数来衡量。

应该选取哪种相关系数呢?显然,商家要开发的产品数量有限,必然选择开发预测销量最高的前几类产品,这里涉及到排序。所以,可以使用spearman相关系数。

  1. python实现

(1)使用pandas中的DataFrame函数读取数据
在这里插入图片描述

(2)使用corr函数计算spearman相关系数
在这里插入图片描述

输出结果如下:
在这里插入图片描述

从输出结果中可以看到,相关关键字搜索排名与销量排名的相关系数为0.8839,属于强相关。

从相关系数的大小来看,两个变量之间有强相关性,这种情况下一般相关系是显著的。但为保险起见,我们再计算一下p值。

P值,即“原假设:两个变量不相关”为假的概率。一般p值小于0.05,可认为原假设为假,接受备择假设,认为两个变量相关。

(3)使用spearman函数同时计算相关系数和p值
在这里插入图片描述
输出结果如下:
在这里插入图片描述
从输出结果中可以看出,p值远小于常用显著性水平0.05,可以认为两个变量是相关的。

  1. 实践检验

如果仅是确定两个指标的相关性,到上面第2步计算出相关系数和p值就可以了。但在商业实际中,我们开发产品需要相当高的投入,如果预测有偏差,就导致徒劳无获。所以,需要检验排名差异较大的产品,尤其是头部20%的产品(二八法则)。找出原因后,可避开此类陷阱。

从整体上来看,相关关键字的搜索量排名与销量排名是强相关的,但我们可以看到部分商品两个指标的排名差异是很大的。如:id为100003的商品两个指标的排名分别为3和124。

如果排名差异的绝对值超过参与排名总量N的20%,可以认为排名差异很大。当然这个标准也可以根据实际情况确定。

因数据敏感性问题,头部产品两个指标排名差异大的原因,本文不再详述。

(注:以上数据为脱敏数据)

文末彩蛋

在读取文件时,如果文件不在默认工作目录中,需要更改工作目录。

更改anaconda中spider的工作目录步骤如下:

  1. 在anaconda prompt命令窗口下,输入:

jupyter notebook --generate-config

然后,会在文件夹下会产生配置文件jupyter_notebook_config.py

Anaconda prompt命令行窗口会输出上述配置文件的目录:
在这里插入图片描述

  1. 更改工作目录

根据上述目录找到配置文件,并用记事本打开,搜索c.NotebookApp.notebook_dir,将“dir=”后面单引号内改为要设置的目录即可。

数据科技社(data_tech_community),查看更多文章:

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值