scatter diagram散点图和线性关系

scatter diagram散点图和线性关系

标签(空格分隔): 统计学;散点图


散点图:散点图(scatter diagram),在回归分析中,数据点在直角坐标系平面上的分布图。

  • 散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
    用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。
    散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。

  • 散点图主要是度量两变量关系强弱的最直观的图形,虽然三维图形也在起着类似的作用,但就直观性上仍然不能取代二维图的效果,不过在探索多维变量间关系上提供了非常好的视角,另外比较常用的是侦察相对回归面的异常值,尤其具有可视化的优势,不过个人认为这并不比二维图更清晰。至于矩阵图其本质上仍然是二维关系。

下面从不同的侧重点来说明

1)探索数据主体模型
此处输入图片的描述

散点的相对疏离程度主要反映在相关系数上,其趋势状况是由回归系数,或斜率来反映。散点分布信息如线性,非线性,提供了统计模型的多项式信息;而分布的长短对应数据或统计信息的大小。图中显示了线性、且第一组提供的信息更丰富一点(方差大)。 95%的预测区间,给出了数据的主体模型,及其可能存在异常值的观测信息,如果两变量s与j线性关系已经确定的话,那么符号圆点、加号两组均有异常案例,其中圆点组有较多的异常。这对模型的预测效果将产生很大的影响。

2)探索模型残差信息

此处输入图片的描述

第一组数据的离散性更大一点,预示着不同类型的异常信息,提示在建模时对这些观测需多加小心,其中杠杆点最值得关注。
95%的预测区间和置信区间,给出了不同组模型的拟合效果,两组数据比较相近,故置信区间有些重叠,至于模型残差信息,以第一组为例,红色箭头指向的那个点和蓝色箭头指向的点,均是较强的杠杆点,但杠杆点所起的效应是否会破坏模型的有效性,需要视OLS估计的残差而定,我们知道回归参数标准误来源于残差等信息的计算(正向关系),因此红色箭头点将带来的相对较大的残差(相对第一组回归线而言),如果这种信息超出了一定的规则,OLS估计将无效。
垂直特异性是另一个值得关注的异常信息,像第一组的数据(最下方的几个圆点,包括红色箭头指向的点)可能带来回归截距的变化(当然回归线两边分布点大致相当的话除外),如果数据点同时具有上述两种特征,那么该数据点没有理由不处理。

3)探索残差的相对信息
此处输入图片的描述
此处输入图片的描述

矩阵图或镶有嵌板的图,在观测多变量或不同特征群组间的关系时,很方便。上面的两幅图提供的信息很类似,例如矩阵散点中,变量G与3个J均有不同数据点偏离的比较远,这预示着在多维空间里,这些点的特殊性,不过这要结合更专业的残差图综合分析,例如某残差的权势图、稳健距离图等等。

转载于:https://www.cnblogs.com/hejsu/p/5469648.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值