在数据分析过程中,我们经常想知道两个变量之间的关系,广告费用与销售额中当投入一定的广告费用时,销售额的变化带有随机不确定性,这种不能用数学函数准确度量,但又存在一定规律的关系我们称为相关关系。相关关系是一种非确定性的关系,它能够分析变量间的关联程度和关联形式,并且可以在相关分析的基础上,再通过回归分析来确定变量之间的数量关系,进而用于生产控制和预测。因此,相关关系和函数关系的区别在于:相关关系是变量间不确定的数量关系;函数关系是变量间一一对应的确定关系,比如长方体的高与体积之间的关系是线性函数关系。
相关分析是对两个变量之间线性关系的描述和度量,探讨的主要问题是:变量之间是否存在关系?存在什么关系?关系强度如何?以及样本所反映的变量间的关系能否代表总体变量间的关系?因此,在进行相关分析时,我们假定两个随机变量间是线性关系,如果是非线性关系,需要进行一定的数学变换将数据转换为线性关系。
如果我们需要探讨两个变量间的关系,可以使用简单散点图进行可视化探索,它是描述变量间相关关系的一种直观方法。相关关系包括线性相关、完全线性相关、曲线相关和不相关。
接下来,我将选用SPSS中的自带数据集car_sales.sav为例,向大家演示相关分析过程。这个数据文件包含假设销售估计值、订价以及各种品牌和型号的车辆的物理规格。我从中选择sales(销售额)和