基础线性回归

一、数据

(x(1),y(1)),(x(1),y(1)),…,(x(m),y(m))
x(i)是n维向量, y(i)是连续实数
向量全是列向量

二、假设函数h

在这里插入图片描述
设x(j)0=0为恒为1,得到向量表示
在这里插入图片描述
此时x(i)为n+1维向量,下标为0~n

三、损失函数

(1)MSE(均方误差)

在这里插入图片描述

(2)直观的感觉

在这里插入图片描述
所有实际值与预测值距离的平方和

(3)为什么是均方误差

首先假设目标变量和输入值存在下面这种等量关系:
在这里插入图片描述
最右边一项为误差,由多个因素共同导致,每一个因素就是一个分布,由中心极限定理可得,这一项误差满足高斯分布,概率密度函数为:
在这里插入图片描述
y(i)是误差加上预测项,则y(i)与误差同分布,就是均值需要改变
在这里插入图片描述
假设每个样本独立,极大化似然函数
在这里插入图片描述
将其中的常量去掉,添加负号,那么我们就是要最小化下面这个式子:
在这里插入图片描述

(4)性质

线性回归的loss_function为凸函数
在这里插入图片描述
实际上不太可能出现全部样本的某一维特征全为0,所以不取等号
二次导数大于0,为凸函数

四、优化参数

(1)梯度下降

<1> 批量梯度下降(BGD)

在这里插入图片描述
注意:
(1)此时参数需要加上所有的样本贡献的梯度,这个跨度有点大,最好取个平均,不然一次下降就不知道跑哪儿去了
(2)同理,学习率的设置也得合理

<2>随机梯度下降(SGD)

在这里插入图片描述
数据规模大的时候最好使用

<3>mini-batch 梯度下降

选取一部分数据来做批量梯度下降,是二者的平均,实际中经常把mini-batch梯度下降叫做随机梯度下降(说是SGD,其实用的这个)

(2)最小二乘法

改写损失函数为向量形式
在这里插入图片描述
写开
在这里插入图片描述
对向量求导
在这里插入图片描述
发现一个很好的推导过程:最小二乘法线性回归:矩阵视角 李家偉

五、代码

(1)以波士顿房价数据集为例

from sklearn.datasets import load_boston
data,label = load_boston(return_X_y = True)
data = StandardScaler().fit(data)     #normalization
print(data.shape,label.shape)   #(506, 13) (506,)

(2)Normal Equation

self.w = np.dot(np.linalg.inv(np.dot(data.T, data)), np.dot(data.T, label))  # 对应于MATLAB中 inv() 函数
# np.linalg.pinv(np.dot(data.T,data))   # 求矩阵 A 的伪逆(广义逆矩阵),对应于MATLAB中 pinv() 函数
loss = np.sum(np.square(np.dot(data, self.w) - label))
print("normal equation loss : %f" % loss)

输出
在这里插入图片描述

(3)BGD

self.w = np.random.randn(self.n,1)
for i in range(self.maxIter):
    self.cost_loss.append(np.sum(np.square(np.dot(data,self.w)-label)))

    gradient = np.dot(data.T,(np.dot(data,self.w)-label))/self.m
    self.w = self.w - self.learn_rate * gradient
print("last five iter loss:",self.cost_loss[-5:])
print("loss len:%d" % len(bgd_model.cost_loss))

输出
在这里插入图片描述

随着迭代次数的上升,代价函数一直在下降,只要一直迭代下去,最终会达到局部最小值
在这里插入图片描述

(4)SGD

self.w = np.random.randn(self.n, 1)
for i in range(self.maxIter):
     for j in range(self.m):
          self.cost_loss.append(np.sum(np.square(np.dot(data, self.w) - label)))

          gradient=data[j]*(np.sum(np.multiply(data[j],self.w.reshape(-1)))-label[j])

          self.w = self.w - self.learn_rate * gradient.reshape(self.n,1)
            
print("last five iter loss:",self.cost_loss[-5:])
print("loss len:%d" % len(bgd_model.cost_loss))

输出
在这里插入图片描述

会发生震荡,可能不会到达最小值,但是比较接近
在这里插入图片描述

(5)miniGD

self.w = np.random.randn(self.n, 1)
maxIter = self.maxIter * int(self.m / self.mini_batch)
for i in range(maxIter):
      self.cost_loss.append(np.sum(np.square(np.dot(data, self.w) - label)))

      loc = np.random.randint(0, self.m, self.mini_batch)
      mini_data, mini_label = data[loc], label[loc]
      gradient = np.dot(mini_data.T, (np.dot(mini_data, self.w) - mini_label)) / self.m
      self.w = self.w - self.learn_rate * gradient
 print("last five iter loss:",self.cost_loss[-5:])
 print("loss len:%d" % len(bgd_model.cost_loss))

输出
在这里插入图片描述

也会发生震荡,但是整体趋势是在下降,并且越接近最小值震荡的越厉害
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值