机器学习笔记（十一）：优化梯度公式 | 凌云时刻

云布道师

于 2020-07-02 18:39:37 发布

阅读量582

点赞数

本文链接：https://blog.csdn.net/bjchenxu/article/details/107096868

版权

凌云时刻 · 技术

导读：这篇笔记主要介绍梯度下降法，梯度下降不是机器学习专属的算法，它是一种基于搜索的最优化方法，也就是通过不断的搜索然后找到损失函数的最小值。像上篇笔记中使用正规方程解实现多元线性回归，基于这个模型我们可以推导出的数学解，但是很多模型是推导不出数学解的，所以就需要梯度下降法来搜索出最优解。

作者 | 计缘

来源 | 凌云时刻（微信号：linuxpk）

优化梯度公式

我们先将之前推导出来的梯度公式写出来：

将展开来看：

将第一行的元素形式统一，每项都乘以，并且恒等于1：

下面我们来两个矩阵，A为一个1行m列的矩阵，B为一个m行n列的矩阵：

在第二篇笔记中我们复习过矩阵的运算，让A矩阵点乘B矩阵会得到一个1行n列的新矩阵：

注意上面 A⋅B的矩阵是1行n列的矩阵，将其转置后就称为了n行1列的矩阵，正是之前展开的梯度 ∇L，所以我们的梯度公式可写为：

如此一来我们就可以修改一下之前封装的梯度的方法了：

# 定义梯度
		def dL(theta, X_b, y):
			# # 开辟空间，大小为theta向量的大小
			# gradient = np.empty(len(theta))
			# # 第0元素个特殊处理
			# gradient[0] = np.sum(X_b.dot(theta) - y)
			#
			# for i in range(1, len(theta)):
			#     # 矩阵求和可以转换为点乘
			#     gradient[i] = (X_b.dot(theta) - y).dot(X_b[:, i])

			return X_b.T.dot(X_b.dot(theta) - y) * 2 / len(X_b)

此时就可以用一行代码取代之前的for循环来实现梯度了。

用真实数据测试梯度下降法

我们用Scikit Learn提供的波士顿房价来测试一下梯度下降法:

import numpy as np
from sklearn import datasets
boston = datasets.load_boston()
X = boston.data
y = boston.target

X = X[y < 50.0]
y = y[y < 50.0]

# 取前10行数据观察一下
X[10:]
# 结果

Out[17]:
array([[  2.24890000e-01,   1.25000000e+01,   7.87000000e+00, ...,
		  1.52000000e+01,   3.92520000e+02,   2.04500000e+01],
	   [  1.17470000e-01,   1.25000000e+01,   7.87000000e+00, ...,
		  1.52000000e+01,   3.96900000e+02,   1.32700000e+01],
	   [  9.37800000e-02,   1.25000000e+01,   7.87000000e+00, ...,
		  1.52000000e+01,   3.90500000e+02,   1.57100000e+01],
	   ...,
	   [  6.07600000e-02,   0.00000000e+00,   1.19300000e+01, ...,
		  2.10000000e+01,   3.96900000e+02,   5.64000000e+00],
	   [  1.09590000e-01,   0.00000000e+00,   1.19300000e+01, ...,
		  2.10000000e+01,   3.93450000e+02,   6.48000000e+00],
	   [  4.74100000e-02,   0.00000000e+00,   1.19300000e+01, ...,
		  2.10000000e+01,   3.96900000e+02,   7.88000000e+00]])

从前10行的数据中可以看出来，数据之间的差距非常大，不同于正规方程法的有数学解，在梯度下降中会非常影响梯度的值，既影响的搜索，从而影响收敛速度和是否能收敛，所以一般在使用梯度下降法前，都需要对数据进行归一化处理，将数据转换到同一尺度下。在第三篇笔记中介绍过数据归一化的方法，Scikit Learn中也提供了数据归一化的方法，我们就使用Scikit Learn中提供的方法对波士顿数据进行归一化：

# 先将样本数据拆分为训练样本数据和测试样本数据
from myML.modelSelection import train_test_split
X_train, y_train, X_test, y_test = train_test_split(X, y, seed=123)

# 使用Scikit Learn提供的数据归一化方法处理训练数据
from sklearn.preprocessing import StandardScaler
standard_scalar = StandardScaler()
standard_scalar.fit(X_train)
X_train_standard = standard_scalar.transform(X_train)

# 再来看看归一化后的数据前10行，和未归一化之前的做一下比较
X_train_standard[10:]
# 结果
array([[-0.3854578 , -0.49494584, -0.70629402, ..., -0.5235474 ,
		 0.22529916, -1.09634897],
	   [ 8.34092707, -0.49494584,  1.03476103, ...,  0.80665081,
		 0.32122168,  1.38375621],
	   [-0.44033902,  1.83594326, -0.83504431, ..., -0.90360404,
		 0.45082029, -0.83197228],
	   ...,
	   [-0.39976896, -0.49494584,  1.58926511, ...,  1.28172161,
		 0.42018591,  0.2101475 ],
	   [-0.422702  , -0.49494584, -0.74140773, ...,  0.33158002,
		 0.4131248 , -0.41372555],
	   [-0.44280463,  3.05688517, -1.35589775, ..., -0.14349077,
		-0.1499176 , -0.02205637]])

可以看到数据都在同一个尺度内了，然后我们用优化后的梯度下降法来训练归一化后的样本数据：

from myML.LinearRegression import LinearRegression
lr = LinearRegression()
lr.fit_gd(X_train_standard, y_train)
lr.intercept_
# 结果
21.629336734693847

lr.coef_
# 结果
array([-0.9525182 ,  0.55252408, -0.30736822, -0.03926274, -1.37014814,
		2.61387294, -0.82461734, -2.36441751,  2.02340617, -2.17890468,
	   -1.76883751,  0.7438223 , -2.25694241])

# 在计算score前，需要对X_test数据也进行归一化处理
X_test_standard = standard_scalar.transform(X_test)
lr1.score(X_test_standard, y_test)
# 结果
0.80028998868733348

看到结果与我们之前使用正规方程法得到的结果是一致的。

END