如何理解多维数据的线性回归问题?
背景就是我们有一个训练集:( x1, y1 ), (x2,y2 )........ ( xN,yN ),通过这个数据集估计参数向量β。每个 xi是第i个数据(第i个样本)的特征度量向量,但是每个 yi就是一个一维数据;举例来说,有100个人,每个人测量了身高、臂展、腰围等参数,用这些参数预测体重。每个人就可以用一个点(身高、臂展、腰围,体重)来表示,现在有100个点,建立预测模型。
其向量形式是
。实际上我们拿到的是一个样本数据矩阵,包含N个样本,要用这个样本矩阵来估算出线性回归模型的参数向量β在得到β 后就可以建立线性回归模型了,然后给定一个新样本
就可以预测中对应的
关于最小二乘法,我们使得残差平方和达到最小来使得线性回归模型拥有最好的拟合效果。
矩阵形式为
对其求导参照对
的求导:
有
令其等于0,有y-Xβ=0.假设矩阵X是满秩矩阵,
有
则 ,当出现矩阵X非满秩,可以删除X中得冗余列。
是的我们已经得到了
,但是估计误差是多少呢?
设样本中得N个观测值 互不相关,方差为 ,则
注意这里的 就是一个一维常数,不是常数向量
是(p+1)×(p+1)的矩阵
是观测值y的总体方差,也是随机误差项的方差,这通常是未知的,我们用
估计,这里 仍然是一维数据。至此可以证明,