一、数据
(x(1),y(1)),(x(1),y(1)),…,(x(m),y(m))
x(i)是n维向量, y(i)是连续实数
向量全是列向量
二、假设函数h
设x(j)0=0为恒为1,得到向量表示
此时x(i)为n+1维向量,下标为0~n
三、损失函数
(1)MSE(均方误差)
(2)直观的感觉
所有实际值与预测值距离的平方和
(3)为什么是均方误差
首先假设目标变量和输入值存在下面这种等量关系:
最右边一项为误差,由多个因素共同导致,每一个因素就是一个分布,由中心极限定理可得,这一项误差满足高斯分布,概率密度函数为:
y(i)是误差加上预测项,则y(i)与误差同分布,就是均值需要改变
假设每个样本独立,极大化似然函数
将其中的常量去掉,添加负号,那么我们就是要最小化下面这个式子:
(4)性质
线性回归的loss_function为凸函数
实际上不太可能出现全部样本的某一维特征全为0,所以不取等号
二次导数大于0,为凸函数
四、优化参数
(1)梯度下降
<1> 批量梯度下降(BGD)
注意:
(1)此时参数需要加上所有的样本贡献的梯度,这个跨度有点大,最好取个平均,不然一次下降就不知道跑哪儿去了
(2)同理,学习率的设置也得合理
<2>随机梯度下降(SGD)
数据规模大的时候最好使用
<3>mini-batch 梯度下降
选取一部分数据来做批量梯度下降,是二者的平均,实际中经常把mini-batch梯度下降叫做随机梯度下降(说是SGD,其实用的这个)
(2)最小二乘法
改写损失函数为向量形式
写开
对向量求导
发现一个很好的推导过程:最小二乘法线性回归:矩阵视角 李家偉
五、代码
(1)以波士顿房价数据集为例
from sklearn.datasets import load_boston
data,label = load_boston(return_X_y = True)
data = StandardScaler().fit(data) #normalization
print(data.shape,label.shape) #(506, 13) (506,)
(2)Normal Equation
self.w = np.dot(np.linalg.inv(np.dot(data.T, data)), np.dot(data.T, label)) # 对应于MATLAB中 inv() 函数
# np.linalg.pinv(np.dot(data.T,data)) # 求矩阵 A 的伪逆(广义逆矩阵),对应于MATLAB中 pinv() 函数
loss = np.sum(np.square(np.dot(data, self.w) - label))
print("normal equation loss : %f" % loss)
输出
(3)BGD
self.w = np.random.randn(self.n,1)
for i in range(self.maxIter):
self.cost_loss.append(np.sum(np.square(np.dot(data,self.w)-label)))
gradient = np.dot(data.T,(np.dot(data,self.w)-label))/self.m
self.w = self.w - self.learn_rate * gradient
print("last five iter loss:",self.cost_loss[-5:])
print("loss len:%d" % len(bgd_model.cost_loss))
输出
随着迭代次数的上升,代价函数一直在下降,只要一直迭代下去,最终会达到局部最小值
(4)SGD
self.w = np.random.randn(self.n, 1)
for i in range(self.maxIter):
for j in range(self.m):
self.cost_loss.append(np.sum(np.square(np.dot(data, self.w) - label)))
gradient=data[j]*(np.sum(np.multiply(data[j],self.w.reshape(-1)))-label[j])
self.w = self.w - self.learn_rate * gradient.reshape(self.n,1)
print("last five iter loss:",self.cost_loss[-5:])
print("loss len:%d" % len(bgd_model.cost_loss))
输出
会发生震荡,可能不会到达最小值,但是比较接近
(5)miniGD
self.w = np.random.randn(self.n, 1)
maxIter = self.maxIter * int(self.m / self.mini_batch)
for i in range(maxIter):
self.cost_loss.append(np.sum(np.square(np.dot(data, self.w) - label)))
loc = np.random.randint(0, self.m, self.mini_batch)
mini_data, mini_label = data[loc], label[loc]
gradient = np.dot(mini_data.T, (np.dot(mini_data, self.w) - mini_label)) / self.m
self.w = self.w - self.learn_rate * gradient
print("last five iter loss:",self.cost_loss[-5:])
print("loss len:%d" % len(bgd_model.cost_loss))
输出
也会发生震荡,但是整体趋势是在下降,并且越接近最小值震荡的越厉害