小鱼儿的菜鸟笔记一 相关分析方法

【2018-2-28下午】

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。

相关分析(Analysis of Correlation)是通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素,并对业务的发展进行预测。相关关系不等于因果关系。


方法一:将数据进行可视化处理,简单的说就是绘制图表。对于有明显时间维度的数据,我们选择使用双坐标轴折线图。

通过折线图可以发现,费用成本和广告曝光量两组数据的变化和趋势大致相同,从整体的大趋势来看,费用成本和广告曝光量两组数据都呈现增长趋势。从规律性来看费用成本和广告曝光量数据每次的最低点都出现在同一天。从细节来看,两组数据的短期趋势的变化也基本一致。


比折线图更直观的是散点图。散点图去除了时间维度的影响,只关注广告曝光量和费用成本这里两组数据间的关系。在绘制散点图之前,我们将费用成本标识为X,也就是自变量,将广告曝光量标识为y,也就是因变量。从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当费用成本的增加后,广告曝光量也随之增加。

方法二:协方差 通过具体数字来度量两组或两组以上数据间的相关关系

协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。(也可用Excelcovar函数)以下是协方差的计算公式:

当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。

方法三:相关系数

是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。以下是相关系数的计算公式。(用Excel中的correl函数)

其中表示样本相关系数,表示样本协方差,表示X的样本标准差,表示y的样本标准差。下面分别是协方差、标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1

方法四:回归分析

是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上变量使用多元回归。进行回归分析之前第一确定变量的数量,第二确定自变量和因变量。

一元回归方程:   

其中 为方程的截距,斜率,也表示了两变量间的关系

目标的值,从而预测因变量y 的值

最小二乘法计算斜率的值:

                截距计算公式:

用Excel数据分析功能自动实现计算,点击 数据-数据分析-回归-x/y值的范围

Intercept为的值,2.27为的值。


R Square为判定系数,用来度量回归方程的拟合优度,其值越大,说明回归方程越有意义,即自变量对因变量的解释度越高。

获得这个方程还有一个更简单的方法,就是在Excel中对自变量x和因变量y生成散点图,然后选择添加趋势线,在添加趋势线的菜单中选中显示公式和显示R平方值即可。


方法五:信息熵与互信息。(待掌握)

实际工作中影响最终效果的因素可能有很多,并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。

度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据,只关注特征与状态的关系。

对于信息熵和互信息具体的计算过程请参考文章《决策树分类和预测算法的原理及实现》,这里直接给出每个特征的互信息值以及排名结果。经过计算城市与购买状态的相关性最高,所在城市为北京的用户购买率较高。

参考资料:http://bluewhale.cc/2016-06-30/analysis-of-correlation.html


 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值