相关性分析相关知识

相关性分析是对特征数据之间的联系进行分析,如正相关、负相关、完全相关、不完全相关、以及用数学模型进行建模预测就等。

举例说明:用成本数据与广告曝光量之间的相关性进行分析

1.协方差及协方差矩阵

协方差Cov(X,Y)是描述二维随机变量两个分量间相互关联程度的一个特征数,设(X ,Y)是一个二维随机变量,若E{ [ X-E(X) ] [ Y-E(Y) ] }存在,则称此数学期望为X与Y的协方差,并记为Cov(X,Y)=E{ [ X-E(X) ] [ Y-E(Y) ] },

根据协方差可以计算两个特征向量之间的关系,如果cov(X,Y)值为正则是正相关,若无负,则为负相关,为0,则为不相关。当特征向量多于两个时,用协方差矩阵可以便捷求出相关性。想简便求解时,可以直接用excel中的COVAR函数直接求得。

协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。下面是三组数据x,y,z,的协方差矩阵计算公式。

当特征数据种类较多时,不能用协方差及协方差矩阵计算出哪几组数据的相关性更改,它只能粗略的计算出相关性是正负还是无关,要对相关性大小进行比较是,要用相关系数的方法进行比较。

2.相关系数

相关系数是反应变量之间关系密切程度的统计指标,1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。计算公式如下:

其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。

Sxy样本协方差公式计算:

Sx样本标准差计算公式:

Sy样本标准差计算公式:

3.一元回归及多元回归

进行回归分析之前有两个准备工作,第一确定变量的数量。第二确定自变量和因变量。以下是一元回归方程,其中y表示广告曝光量,x表示费用成本。b0为方程的截距,b1为斜率,同时也表示了两个变量间的关系。我们的目标就是b0和b1的值,知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。

这是b1的计算公式,我们通过已知的费用成本x和广告曝光量y来计算b1的值。

以下是b0的计算公式,在已知b1和自变量与因变量均值的情况下,b0的值很容易计算。

在Excel中使用数据分析中的回归功能,输入自变量和因变量的范围后可以自动获得b0(Intercept)的值362.15和b1的值5.84。这里的b0和之前手动计算获得的值有一些差异,因为前面用于计算的b1值只保留了两位小数。

这里还要单独说明下R Square的值0.87。这个值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高。

4.信息熵

对数据的信息熵进行计算,可以得到数据之间的熵值,熵值越大,说明不确定性越大,发生的概率越小,熵值越小,说明确定性越大,出现的次数越多,概率越大,相关性越大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值