NN学习中的技巧之（一）参数的最优化之SGD

最新推荐文章于 2024-03-27 15:52:49 发布

doubleslow;

最新推荐文章于 2024-03-27 15:52:49 发布

阅读量1.3k

点赞数 4

分类专栏：机器学习 Python 文章标签：神经网络学习技巧

本文链接：https://blog.csdn.net/qq_36607894/article/details/99692681

版权

源码在前，了无秘密

NN的学习实质上就是区找到使得损失函数最小的那组参数，包括权重和偏置，所以这就是一个参数寻优的过程，是最优化问题。但NN中的参数空间非常庞大，网络越深参数空间越大，这使得NN的参数寻优不可能通过解析的方法实现。

SGD（Stochastic Gradient Descent）随机梯度下降

在NN的学习中，找最优参数通常是以梯度为线索的，使用最终的损失函数计算值关于每个参数的梯度，沿着梯度的反方向更新参数，重复多次逐渐靠近最优参数，每次以整个训练数据集的一个小batch的数据求一次损失函数值（batch中所有输入的损失函数的和），并计算此损失函数值关于所有参数的梯度，以梯度计算值为依据根据梯度下降法更新一次参数，直到迭代次数达到为止。

随机体现在每个iteration随机从训练数据中选出一个batch。

SGD表现不好的例子：

二元函数 $f(x,y)=\frac{1}{20}x^2+y^2$
函数图像：
在这里插入图片描述
函数的等高线：

在这里插入图片描述

画图代码：

# SGD_Nogood_Example.py
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


def func(x, y):
    return (x ** 2) / 20 + y ** 2


# 画函数图像
fig = plt.figure()
ax = Axes3D(fig)
x = np.arange(-10, 10, 0.1)
y = np.arange(-10, 10, 0.1)
X, Y = np.meshgrid(x, y)
Z = func(X, Y)
ax.plot_wireframe(X, Y, Z)

# 画函数的等高线
plt.figure()
# 进行颜色填充,其他着色方案:
# cmap=plt.cm.Blues  plt.cm.hot
# plt.cm.Accent  plt.cm.cbook cmap='jet'
plt.contourf(X, Y, Z, 40, cmap='RdGy')
plt.colorbar()
# 画等高线（可画可不画），前面只填充了颜色，也足够表现出等高线
# contour = plt.contour(X, Y, Z, 40, colors='black')
# 画40条等高线
plt.xlabel('x')
plt.ylabel('y')
# plt.savefig('0.png', dpi=100)
# 线条标注的绘制
# plt.clabel(contour, inline=True, fontsize=10)
# 去掉坐标轴刻度
# plt.xticks(())
# plt.yticks(())
# plt.axis('off')与上两句同效，但无法显示xlabel和ylabel
plt.show()

梯度图：
在这里插入图片描述
可以看出沿着x方向的梯度基本都接近于0，这就导致SGD不好学习了。

梯度图绘制代码：

# Quiver.py
# 使用quiver函数绘制f(x,y)=0.05x^2+y^2的梯度图

import numpy as np
import matplotlib.pyplot as plt


def numerical_gradient(f, x):
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)

    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1