获取案例链接、直播课件、数据集在本公众号内发送“机器学习”。
机器学习模型的求解最终都会归结为求解一个最优化问题,最优化的目标为模型误差,它是模型参数的函数。例如线性回归的优化目标是均方误差,参数是每个特征的系数。根据目标函数的特点(凸与非凸),样本数量,特征数量,在实践中会选择不同的优化方法。常见的优化方法包括解析法、梯度下降法、共轭梯度法、交替迭代法等。本案例将对常见的优化算法进行分析,以便理解不同优化方法的特点和适用场景,帮助我们在机器学习实践中选择最合适的优化方法。
1 Python 梯度下降法实现
import matplotlib.pyplot as plt
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import animation
from IPython.display import HTML
from autograd import elementwise_grad, value_and_grad,grad
from scipy.optimize import minimize
from scipy import optimize
from collections import defaultdict
from itertools import zip_longest
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
1.1 实现简单优化函数
借助 Python 的匿名函数定义目标函数。
f1 = lambda x1,x2 : x1**2 + 0.5*x2**2 #函数定义
f1_grad = value_and_grad(lambda args : f1(*args)) #函数梯度
1.2 梯度下降法实现
梯度下降法使用以下迭代公式进行参数的更新。
其中 为学习率。我们实现 gradient_descent
方法来进行参数的更新。
def gradient_descent(func, func_grad, x0, learning_rate=0.1, max_iteration=20):
path_list = [x0]
best_x = x0
step = 0
while step update = -learning_rate * np.array(func_grad(best_x)[1])
if(np.linalg.norm(update) 1e-4):
break
best_x = best_x + update
path_list.append(best_x)
step = step + 1
return best_x, np.array(path_list)
2 梯度下降法求解路径可视化
首先我们使用上节实现的梯度下降法求解,得到参数的优化路径。
best_x_gd, path_list_gd = gradient_descent(f1,f1_grad,[-4.0,4.0],0.1,30)
path_list_gd
array([[-4. , 4. ],
[-3.2 , 3.6 ],
[-2.56 , 3.24 ],
[-2.048 , 2.916 ],
[-1.6384 , 2.6244 ],
[-1.31072 , 2.36196 ],
[-1.048576 , 2.125764 ],
[-0.8388608 , 1.9131876 ],
[-0.67108864, 1.72186884],
[-0.53687091, 1.54968196],
[-0.42949673, 1.39471376],
[-0.34359738, 1.25524238],
[-0.27487791, 1.12971815],
[-0.21990233, 1.01674633],
[-0.17592186, 0.9150717 ],
[-0.14073749, 0.82356453],
[-0.11258999, 0.74120808],
[-0.09007199, 0.66708727],
[-0.07205759, 0.60037854],
[-0.05764608, 0.54034069],
[-0.04611686, 0.48630662],
[-0.03689349, 0.43767596],
[-0.02951479, 0.39390836],
[-0.02361183, 0.35451752],
[-0.01888947, 0.31906577],
[-0.01511157, 0.2871592 ],
[-0.01208926, 0.25844328],
[-0.00967141, 0.23259895],
[-0.00773713, 0.20933905],
[-0.0061897 , 0.18840515],
[-0.00495176, 0.16956463]])
2.1 目标函数曲面的可视化
为了将函数曲面绘制出来,我们先借助 np.meshgrid
生成网格点坐标矩阵。两个维度上每个维度显示范围为-5到5。对应网格点的函数值保存在 z
中。
x1,x2 = np.meshgrid(np.linspace(-5.0,5.0,50), np.linspace(-5.0,5.0,50))
z = f1(x1,x2 )
minima = np.array([0, 0]) #对于函数f1,我们已知最小点为(0,0)
ax.plot_surface?
Matplotlib 中的 plot_surface
函数能够帮助我们绘制3D函数曲面图。函数的主要参数如下表所示。
%matplotlib inline
fig = plt.figure(figsize=(8, 8))
ax = plt.axes(projection='3d', elev=50, azim=-50)
ax.plot_surface(x1,x2, z, alpha=.8, cmap=plt.cm.jet)
ax.plot([minima[0]],[minima[1]],[f1(*minima)], 'r*', markersize=10)
ax.set_xlabel('$x1$')
ax.set_ylabel('$x2$')
ax.set_zlabel('$f$')
ax.set_xlim((-5, 5))
ax.set_ylim((-5, 5))
plt.show()
![eb93524ec15ac70d794388ce4c298981.png](https://i-blog.csdnimg.cn/blog_migrate/ba6210c9dabcedc9bc1dcd488a23043f.png)
2.2 绘制等高线和梯度场
contour
方法能够绘制等高线,clabel
能够将对应线的高度(函数值)显示出来,这里我们保留两位小数(fmt='%.2f'
)。
dz_dx1 = elementwise_grad(f1, argnum=0)(x1, x2)
dz_dx2 = elementwise_grad(f1, argnum=1)(x1, x2)
fig, ax = plt.subplots(figsize=(6, 6))
contour = ax.contour(x1, x2, z,levels=20,cmap=plt.cm.jet)
ax.clabel(contour,fontsize=10,colors='k',fmt='%.2f')
ax.plot(*minima, 'r*', markersize=18)
ax.set_xlabel(&#