相关性分析(一)之连续特征

相关性分析

分析两个特征的相关程度叫做相关性分析,比如“身高”与“体重”两个特征,就可以使用相关性分析找到两者的相关关系。

正相关/负相关/不相关

图表

分析两组数量不大的数据时,可以用图表法,常见的图表法有以下两种:

  1. 折线(时间维度):双坐标折线图
  2. 散点图
    图表可以清晰的展现相关关系,但无法准确度量,且缺乏说服力。

协方差

协方差公公式如下:
x和y分别表示的是两个特征,这两个特征都有n条:在这里插入图片描述
原理如下:
在这里插入图片描述
当协方差>0表示两个特征正相关,协方差<0表示两个特征负相关。

不能通过协方差判断两个特征相关性强弱。
协方差值小可能是由两个原因引起的:

  1. 方差小,即数据不离散。
  2. 相关性弱。

协方差矩阵

协方差矩阵反映的是两两的相关性,其每个元素是各个特征之间的协方差。
在这里插入图片描述
协方差矩阵# 相关性分析
分析两个特征的相关程度叫做相关性分析,比如“身高”与“体重”两个特征,就可以使用相关性分析找到两者的相关关系。## 正相关/负相关/不相关### 图表分析两组数量不大的数据时,可以用图表法,常见的图表法有以下两种:1. 折线(时间维度):双坐标折线图2. 散点图图表可以清晰的展现相关关系,但无法准确度量,且缺乏说服力。### 协方差协方差公公式如下:x和y分别表示的是两个特征,这两个特征都有n条:在这里插入图片描述原理如下:在这里插入图片描述当协方差>0表示两个特征正相关,协方差<0表示两个特征负相关。>不能通过协方差判断两个特征相关性强弱。>协方差值小可能是由两个原因引起的:>1. 方差小,即数据不理三>2. 相关性弱。### 协方差矩阵协方差矩阵反映的是两两的相关性,其每个元素是各个特征之间的协方差。在这里插入图片描述

  1. 对角线元素决定了图形是圆还是扁。
  2. 非对角线元素决定了分布图形的轴向(扁的方向)。

相关性强弱

相关系数

那么为了判断相关性强弱,可以排除协方差中相关性的影响,这就是皮尔逊相关系数,即:
在这里插入图片描述

建模

一元回归及多元回归

一元回归

如果两个特征线性相关,那么可以对这两个特征线性拟合。
在这里插入图片描述

多元回归

多元回归首先要确定变量个数,并确定自/因变量,接下来就可以具体问题具体分析。

显著性检验

可以通过显著性检验证明两个变量x,y之间是否具有显著的线性关系。

F检验

通过F检验对一元线性回归效果进行分析。
一元线性回归的数学模型:
在这里插入图片描述
原理: 若y=a+bx+ε中的b=0,说明x的变化对y没有影响,这时回归方程 y ^ = a ^ + b ^ x \hat{y}=\hat{a}+\hat{b}x y^=a^+b^x就不能近似的描述y和x的关系,因此为了判断x与y再见是否存在线性关系,只需检验假设 H 0 : b = 0 H_0:b=0 H0b=0,接受原假设,表示不能认为x,y再见存在线性相关关系。
构造统计量:

  1. 变量y的离差平方和(类似于方差): L y y = ∑ i = 1 n ( y i − y ‾ ) = ∑ i = 1 n ( y i − y i ^ ) + ∑ i = 1 n ( y i ^ − y ‾ ) = Q + U L_{yy}=\sum_{i=1}^n(y_i-\overline{y})=\sum_{i=1}^n(y_i-\hat{y_i})+\sum_{i=1}^n(\hat{y_i}-\overline{y})=Q+U Lyy=i=1n(yiy)=i=1n(yiyi^)+i=1n(yi^y)=Q+U
    其中, Q = ∑ i = 1 n ( y i − y i ^ ) 2 Q=\sum_{i=1}^n(y_i-\hat{y_i})^2 Q=i=1n(yiyi^)2表示真实值和预测值之间的离差平方和,它表示除x对y的线性影响之外一切可能引起y值变化的因素,也称为误差平方和或残差平方和。 U = ∑ i = 1 n ( y i ^ − y ‾ ) 2 U=\sum_{i=1}^n(\hat{y_i}-\overline{y})^2 U=i=1n(yi^y)2表示预测值和平均值 y ‾ \overline{y} y的离差平方和,由于 y i ^ = a ^ + b ^ x i \hat{y_i}=\hat{a}+\hat{b}x_i yi^=a^+b^xi,可以把 y i ^ − y ‾ \hat{y_i}-\overline{y} yi^y看成是由x的变化引起的y值的变化,称之为回归平方和。
    而: U = ∑ i = 1 n ( y i ^ − y ‾ ) = b 2 ^ ∑ i = 1 n ( x i − x ‾ ) 2 = b 2 ^ L x x = b ^ L x y U=\sum_{i=1}^n(\hat{y_i}-\overline{y})=\hat{b^2}\sum_{i=1}^n(x_i-\overline{x})^2=\hat{b^2}L_{xx}=\hat{b}L_{xy} U=i=1n(yi^y)=b2^i=1n(xix)2=b2^Lxx=b^Lxy
    H 0 H_0 H0为真时,统计量:
    在这里插入图片描述
    对于给定的显著性水平 α \alpha α,查自由度为(1,n-2)的F分布临界值表,可得临界值 F α ( 1 , n − 2 ) F_\alpha(1,n-2) Fα(1,n2)使得 P ( F > F α ( 1 , n − 2 ) ) = α P(F>F_\alpha(1,n-2))=\alpha P(F>Fα(1,n2))=α,其拒绝域为 W = F > F α ( 1 , n − 2 ) W={F>F_\alpha(1,n-2)} W=F>Fα(1,n2)

t检验

为了检验假设: H 0 : b = 0 ; H 1 : b ≠ 0 H_0:b=0;H_1:b≠0 H0:b=0H1:b=0
y ^ = b ^ x + a ^ \hat{y}=\hat{b}x+\hat{a} y^=b^x+a^,其中, b ^ = L x y L x x , a ^ = y ‾ − b ^ x ‾ \hat{b}=\frac{L_{xy}}{L_{xx}},\hat{a}=\overline{y}-\hat{b}\overline{x} b^=LxxLxya^=yb^x

L x x = ∑ i = 1 n ( x i − x ‾ ) 2 = ∑ i = 1 n x i 2 − n x ‾ 2 {L_{xx}}=\sum_{i=1}^n(x_i-\overline{x})^2=\sum_{i=1}^n{x_i}^2-n\overline{x}^2 Lxx=i=1n(xix)2=i=1nxi2nx2

L x y = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) = ∑ i = 1 n x i y i − n x ‾ y ‾ {L_{xy}}=\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})=\sum_{i=1}^nx_iy_i-n\overline{x}\overline{y} Lxy=i=1n(xix)(yiy)=i=1nxiyinxy

L y y = ∑ i = 1 n ( y i − y ‾ ) 2 = ∑ i = 1 n y i 2 − n y ‾ 2 {L_{yy}}=\sum_{i=1}^n(y_i-\overline{y})^2=\sum_{i=1}^n{y_i}^2-n\overline{y}^2 Lyy=i=1n(yiy)2=i=1nyi2ny2

r = L x y L x x L y y r=\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} r=LxxLyy Lxy,此统计量称为积差相关系数。

U = ∑ i = 1 n ( y i ^ − y ‾ ) 2 = b ^ L x y U=\sum_{i=1}^n(\hat{y_i}-\overline{y})^2 = \hat{b}L_{xy} U=i=1n(yi^y)2=b^Lxy

Q = L y y − U = L y y − b ^ L x y = L y y ( 1 − r 2 ) Q=L_{yy}-U=L_{yy}-\hat{b}L_{xy}=L_{yy}(1-r^2) Q=LyyU=Lyyb^Lxy=Lyy(1r2)
不难看出,由于 Q ≥ 0 , L y y ≥ 0 Q\geq0,L_{yy}\geq0 Q0Lyy0,故 ( 1 − r 2 ) ≥ 0 (1-r^2)\geq0 (1r2)0,即 0 ≤ ∣ r ∣ ≤ 1 0\leq|r|\leq1 0r1
|r|越接近1,回归方程对样本数据的拟合程度越好,反之,|r|越接近0,Q越大,回归方程对样本数据拟合程度越差。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值