在数据的统计分析中,数据之间即变量x与Y之间的相关性研究非常重要,通过在直角坐标系中做散点图的方式我们会发现很多统计数据近似一条直线,它们之间或者
正相关或者
负相关。虽然这些数据是离散的,不是连续的,我们无法得到一个确定的描述这种相关性的函数方程,但既然在直角坐标系中数据分布接近一条直线,那么我们就可以通过画直线的方式得到一个近似的描述这种关系的直线方程。当然,从前面的描述中不难看出,所有数据都分布在一条直线附近,因此这样的直线可以画出很多条,而我们希望找出其中的一条,能够最好地反映变量之间的关系。换言之,我们要找出一条直线,使这条直线“最贴近”已知的数据点,设此直线方程为:
这里的 是为了区分Y的实际值y(这里的实际值就是统计数据的真实值,我们称之为 观察值),当x取值 (i=1,2,3……n)时,Y的观察值为 ,近似值为
这里的 是为了区分Y的实际值y(这里的实际值就是统计数据的真实值,我们称之为 观察值),当x取值 (i=1,2,3……n)时,Y的观察值为 ,近似值为