统计学与统计机器学习1--连续型变量相关性分析

一、简单相关性分析

1、变量间的关系分析

变量之间的关系可分为两类:函数关系、相关关系。

(1)函数关系

存在完全确定的关系

(2)相关关系

不存在完全确定的关系:虽然变量间有着十分密切的关系,但是不能由一个或多个变量值精确的求出另一个变量的值,称为相关关系,存在相关关系的变量称为相关变量
相关变量的关系也可分为两种:平行关系、依存关系

i、平行关系
  • 两个及以上变量间相互影响
  • 相关分析是研究呈平行关系的相关变量之间的关系
ii、依存关系
  • 一个变量变化受另一个变量的影响
  • 回归分析是研究呈依存关系的相关变量之间的关系
iii、两者关系

回归分析和相关分析都是研究变量之间关系的统计学课题,两种分析方法相互结合和渗透
在这里插入图片描述

2、简单相关分析

  • 相关分析:通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间的相关关系的密切程度和表现形式
  • 主要研究内容:现象之间是否相关、相关的方向、密切程度等,不区分自变量与因变量,也不关心各变量的构成形式
  • 主要分析方法:绘制相关图、计算相关系数、检验相关系数

(1)计算两变量之间的线性相关系数

  • 所有相关分析中最简单的就是两个变量间的线性相关,一变量数值发生变动,另一变量数值会随之发生大致均等的变动,各点的分布在平面图上大概表现为一直线;
  • 线性相关分析,就是用线性相关系数来衡量两变量的相关关系和密切程度
  • 给定二元总体(X,Y)
    • 总体相关系数用ρ表示:
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • cov(X,Y)是x与y的协方差
i、协方差定义、柯西-施瓦尔兹不等式
a、协方差定义

设(X,Y)是二维随机变量,若E[(X-E(X))(Y-E(Y))]存在
则称cov(X,Y)=E[(X-E(X))(Y-E(Y))],叫X与Y的协方差,也叫X与Y的相关(中心)矩
即X的偏差(X-E(X))与Y的偏差(Y-E(Y))乘积的期望
解读:

  • 当cov(X,Y)>0,X的偏差(X-E(X))与Y的偏差(Y-E(Y)),有同时增加或同时减少的倾向,又由于E(X)和E(Y)都是常数,所以就能够等价于X与Y有同时增加或减少的倾向,称X与Y正相关
  • 当cov(X,Y)<0,X的偏差(X-E(X))与Y的偏差(Y-E(Y)),有X增加Y减少的倾向,或Y增加X减少的倾向,称X与Y负相关
  • 当cov(X,Y)=0,称X与Y不相关,这时可能是X与Y取值毫无关联,也可能是某种特殊的非线性关系
b、柯西-施瓦尔兹不等式

根据柯西-施瓦尔兹不等式
在这里插入图片描述
变形得ρx,y在区间[-1,1]
ρx,y是没有单位的,因为分子协方差的量纲除以了分母的与分子相同的量纲

  • 两变量线性相关性越密切,|ρx,y|越接近于1
  • 两变量线性相关性越低,|ρx,y|越接近于0
  • |ρx,y|=0的情况跟上面cov(X,Y)=0情况一样,两变量取值毫无关联或有某种特殊的非线性关系

协方差与相关系数的关系,就像绝对数与相对数的关系(绝对数相当于统计中常用的总量指标;相对数是两个有联系的指标的比值,从数量上反应两个相互联系的现象之间的对比关系。)

ii、Pearson相关系数(样本线性相关系数)

一般用样本线性相关系数来估计总体线性相关系数,数据必须服从正态分布
设(X,Y)是二元总体,简单随机抽样(x1,y1),(x2,y2),……(xn,yn)
样本均值:
在这里插入图片描述
在这里插入图片描述
样本方差:
在这里插入图片描述
在这里插入图片描述
样本协方差:
在这里插入图片描述
样本相关系数:
在这里插入图片描述
lxx为x的离差平方和,lyy为y的离差平方和,lxy为x与y离差乘积之和(可正可负)
实际计算可按下面简化:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
python代码(人的身高体重相关性关系):

import numpy as np
import matplotlib.pyplot as plt
x=np.array([171,175,159,155,152,158,154,164,168,166,159,164])
y = np.array([57,64,41,38,35,44,41,51,57,49,47,46])
np.corrcoef(x,y)
plt.scatter(x,y)
plt.show()

结果:

array([[1.        ,0.95930314],
       [0.95930314,1.        ]])

r>0,则体重和身高呈正相关性

注意:数据不服从正态分布时–spearman相关系数

皮尔森相关系数只能用于分析服从正态分布的连续变量的相关性,对于不服从正态分布的变量,可采用Sperman秩相关系数进行相关性分析。

Sperman秩相关系数,也称等级相关系数。如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

计算逻辑:对两个变量的取值按照从小到大顺序编秩,如果两个值大小相等,则秩次为(index1+index2)/2,

不管Pearson还是spearman,都使用pandas中的corr()函数

iii、ρ=0,相关系数的假设检验
a、引入假设检验的原因
  • r与其他统计指标一样,也会有抽样误差。从同一总体内抽取若干大小相同的样本,各样本的样本相关系数总会有波动。即根据样本数据是否有足够的证据得出总体相关系数不为0的结论(判断得出的结论是否准确的,不是假的)
  • 要判断不等于0的r值是来自总体相关系数ρ=0的总体,还是来自ρ不等于0的总体,必须进行显著性检验
  • 因为样本间没有线性相关性,可能会杂乱无章,也可能呈现出一些非线性关系(更高阶的关系pearson相关系数不能表示出来)
  • 所以r的显著性检验可以用双侧 t 检验来进行
iv、t-检验的解读
a、简历检验假设

在这里插入图片描述

b、构造 t 统计量,计算相关系数 r 的 t 值

在这里插入图片描述
此 t 近似服从t(n-2)分布,如果数据严格服从二元正态分布
在这里插入图片描述

Γ是gamma函数,F1(a,b;c;d)是高斯超几何函数
当总体相关系数ρ=0时(假定两个随机变量时正态相关的),
样本相关系数r的密度函数为:在这里插入图片描述
B是beta函数,此密度函数碰巧就是统计量 t ,就是自由度为n-2的 t 分布;

c、计算 t 值和 P ,作结论

R语言中有cor.test()函数
相关系数的显著性是与自由度(n-2)有关,也就是与样本数量n有关。
样本量小,相关系数绝对值容易接近于1,样本量大,相关系数绝对值容易偏小;
所以,我们要拿到充分大的样本,就能把相关系数r作为总体相关系数ρ,这样就不必关心显著性检验的结果了。

3、深度探讨ρ=0

Pearson相关系数无法度量非线性关系的强度。

二、多变量相关性分析(一个因变量和多个自变量)

多变量基于双变量

1、偏相关或复相关

  • 简单相关:研究两变量之间的关系
  • 偏相关或复相关:研究三个或者三个以上变量的关系

2、意义与用途

有些时候,我们只想了解两个变量之间是否有线性相关关系,并不想拟合建立它们的回归模型,也不需要区分自变量和因变量,这时可用相关性分析。

3、分析方法

(1)样本相关系数矩阵、相关系数检验

设x1,x2…xn,来自正态总体Np(u,σ2)容量为n的样本,其中每个样本x有p各观测
分别计算两两样本之间的简单相关系数rij,它们构成的矩阵就是:
在这里插入图片描述
由于每个变量跟自己的相关系数就是1,即:
在这里插入图片描述
其中,(rij)pxp就是两个变量的简单相关系数
在这里插入图片描述
R语言中,使用cor(x) 得到相关系数矩阵,corr.test(x)进行相关系数检验(得到t检验矩阵),Probability values得到p值(置信度)矩阵

(2)复相关分析

  • 实际分析中,一个变量(y)往往要受到多种变量(x1,x2,…x4)的综合影响,
  • 所谓复相关,就是研究多个变量同时与某个变量的相关关系
  • 度量复相关程度的指标是复相关系数
  • 多个变量同时与某个变量的相关关系不能直接测算,只能通过间接测算

复相关系数的计算:

设因变量y,自变量x1,x2,…xp,构造一个线性模型为:
y=b0+b1x1+…+bpxp+ε
y帽=b0+b1x1+…+bpxp
对y与x1、x2…xp作相关分析,就是对y与y帽作简单相关分析

记:

  • ry.x1…xp为y与x1,x2…xp的复相关系数
  • ry.y帽为y与y帽的简单相关系数

ry.x1…xp的计算公式:
在这里插入图片描述
复相关系数常用于多元线性回归分析中,我们希望知道因变量与一组自变量之间的相关程度,即复相关,复相关系数反映了一个变量与另一组变量的密切程度

假设检验:
与多元回归的方差分析一样
综上:
在这里插入图片描述

(3)决定系数R2 (RMSE的介绍)

在复相关系数中,根号里面的比值在这里插入图片描述
其实说明了回归平方和与总离平方和的比值,反应了回归贡献的百分比
复相关系数两边平方一下就能得到决定系数
在这里插入图片描述
决定系数用于评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中。

注意:

  • R2相关性的度量,并不是准确性的度量
  • R2 依赖于y的波动程度(样本方差),这会使得我们看待模型的好坏有着巨大影响,例如,假设测试集y的方差是4.2,如果一个模型的RMSE=1,R2 大致为76%,但是另一个测试集的方差是3,R2 则变为67%。这样模型的好坏就决定于测试集的波动程度,所以这个十分不靠谱
  • 不明白上面的话,可以再看一个例子,如果我们建立了一个模型预测广州房价,如果测试集中广州房屋售价的波动范围较大——方差较大(40万-几千万),因为方差大,所以很可能导致 R2 也比较大(假设 80%),但 RMSE可能十万,这对于广州房价预测来说是一个很糟糕的预测范围。

什么是RMSE:
RMSE 是回归问题的性能指标,衡量的是预测值与真实值之间的差距,是测量预测误差的标准差
在这里插入图片描述
举例子: RMSE 等于 50000,根据【3σ 准则】意味着:
大约 68% 的预测值位于真实值的 50000元(1σ)以内,
大约 95% 的预测值位于真实值的 100000元 ( 2σ)以内,
大约 99.7% 的预测值位于真实值的 150000元内 ( 3σ )以内

4、小结

可以看出多变量相关分析跟回归分析的关系很密切,多变量相关分析能为回归分析服务,因为要具有相关性才有做线性回归拟合的价值

  • 5
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 当机器学习算法的目标变量连续变量时,数据通常是由一组数值型变量组成的。这些变量可以是实数,也可以是整数,但通常是连续的。例如,如果我们正在预测房价,那么我们可能会收集一些与房价相关的变量,如房屋面积、卧室数量、浴室数量等,这些变量通常是连续的数值型变量。在这种情况下,我们的目标是预测一个连续的数值 - 即房价。 ### 回答2: 当机器学习算法的目标变量连续变量时,我们所处理的数据通常是数值型的。这些数值可以是实数也可以是离散的数值。 连续变量是指在某个范围内可以取得无限个数值的变量。例如,房屋价格、温度、股票指数等。 在这种情况下,我们要使用的数据集通常由以下两部分构成: 1. 特征变量:用于描述和预测目标变量的一组特征。这些特征可以是连续变量、离散变量或者是二进制变量。例如,对于房屋价格的预测,特征变量可能包括房屋的面积、卧室数量、厨房数量等。 2. 目标变量:即我们要预测或者估计的变量,也就是连续变量。在所给的数据集中,目标变量是已经存在的,用于训练和验证模型。 在机器学习算法中,我们通常将数据集分为训练集和测试集。训练集用于训练模型,而测试集用于评估模型的性能。训练集和测试集的数据样本都包括特征变量和目标变量。 对于连续变量的数据,我们可以使用各种回归算法来进行建模和预测,如线性回归、决策树回归、支持向量回归等。这些算法会根据特征变量和目标变量之间的关系,学习出一个数学模型,以便在给定特征变量的情况下,预测目标变量的值。 ### 回答3: 当机器学习算法的目标变量连续变量时,数据的样式通常是带有数值的连续数据。这意味着目标变量具有一定范围内的无限可能取值,而不是一组有限的离散值。 举例来说,假设我们正在使用机器学习算法预测房屋价格。在这种情况下,目标变量被定义为某个地点上房屋的准确售价。这个目标变量通常是一个连续变量,因为房屋的价格可以是小数或者任意数字值。 对于连续变量的数据,可以具体描述为一组数值的序列或者一个数值范围。在回归问题中,我们关注预测目标变量的具体数值,因此我们的数据通常是已知特征对应的目标变量的数值。例如,我们可以提取有关房屋的各种特征(如房屋面积、卧室数量、浴室数量等)和相应的房屋价格作为训练数据。 在进行连续变量机器学习算法训练时,我们可能会使用一系列数学模型(如线性回归、决策树、神经网络等)来通过已有的特征数据来预测连续目标变量的值。这些算法使用统计学和优化方法来寻找特征与目标变量之间的关系和模式,以便在新的输入数据上进行预测与推断。 总之,当机器学习算法的目标变量连续变量时,我们通常处理一组具有数值的连续数据,通过算法来预测或推断出目标变量的具体值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值