这里主要是想详细说明一下有关linear regression的知识,包括其中蕴含的数学知识和计算过程,为自己今后学习打下基础,也希望分享给需要的人。部分图片与公式来源于网上。
首先说明什么是simple linear regression,
一个变量x,中文叫自变量吧,英文:predictor,explantory,independent variable
另一个变量y,中文为因变量,英文:response,outcome,dependent variable
当然这里都是统计意义上的,所以说是自变量与因变量也不是很合适,我们还是用英文表示。形式上就是Y=B0+B1*X
一般在拿到数据的时候,先用matlab或者其他软件画出散点图,如下图,肉眼看一下是否具有线性关系。
下面我们首先看看如何利用这些样本点,做出一个比较好的线性回归方程,也就是求出B0,B1的最优值。
这里我们假设利用样本点得到的最优方程为:
这里采用小写表示是样本值,那么为了衡量这个估计是否是好的,定义如下参数预测误差(prediction error,residual error):
通常情况下我们采用均方误差最小准则(least squares criterion)来确定回归方程(当然也有别的)。公式如下:
这个Q函数以b0和b1为自变量的函数,即将方程参数求解问题转化为求该函数取最小值时,对应的自变量的值的问题。
第一种方法想到求偏导,然后另偏导数为0,得到解,为了显示基础性我还是手写以下计算过程:
下面我们来进一步从预测误差来讨论,下面公式与之前多了一个期望值,其实很好理解,我们在回归分析的时候用的是样本y,并且把它当做是总体的期望