1、实验目的:
- 实现误差反向传播法的神经网络。
- 使用python绘制出精确度和损失值。
2、实验内容与过程
输出使用后4000个样本训练得到模型在测试集上的结果
参数设置为:batch:300;iters_num: 2000;lamda:0.1
SGD:随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。
Momentum:参考了物理中动量的概念,前几次的梯度也会参与道当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。
Adagard:在训练过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率玉以往的参数模的和的开方成反比。
Adam:利用梯度的一阶矩估计和二阶矩估计,动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数比较平稳。
# coding: utf-8
import sys, os
sys.path.append(os.pardir) # 为了导入父目录的文件而进行的设定
import numpy as np
import matplotlib.pyplot as plt
from collections import OrderedDict
from common.optimizer import *
#原函数
def f(x, y):
#return x**2 / 20.0 + y**2
return x**2-y**2
#函数求导
def df(x, y):
#return x / 10.0, 2.0*y
return 2*x,2*y
#选择一个点
init_pos = (7.0, 0.2)
#权重参数
params = {}
params['x'], params['y'] = init_pos[0], init_pos[1]
#梯度
grads = {}
grads['x'], grads['y'] = 0, 0
optimizers = OrderedDict()
optimizers["SGD"] = SGD(lr=0.3)
optimizers["Momentum"] = Momentum(lr=0.6)
optimizers["AdaGrad"] = AdaGrad(lr=1.5)
optimizers["Adam"] = Adam(lr=0.3)
idx = 1
#遍历每种方法
for key in optimizers:
optimizer = optimizers[key]
x_history = []
y_history = []
params['x'], params['y'] = init_pos[0], init_pos[1]
for i in range(10):
x_history.append(params['x'])
y_history.append(params['y'])
grads['x'], grads['y'] = df(params['x'], params['y'])
# 更新参数
optimizer.update(params, grads)
x = np.arange(-10, 10, 0.01)
y = np.arange(-10, 10, 0.01)
X, Y = np.meshgrid(x, y)
Z = f(X, Y)
# for simple contour line
mask = Z > 7
Z[mask] = 0
# plot
plt.subplot(2, 2, idx)
idx += 1
plt.plot(x_history, y_history, 'o-', markersize=4,color="red")
plt.contour(X, Y, Z,7) # 绘制等高线
plt.ylim(-10, 10)
plt.xlim(-10, 10)
plt.plot(0, 0, '+')
plt.title(key)
plt.xlabel("x")
plt.ylabel("y")
#plt.subplots_adjust(wspace=0, hspace=0) # 调整子图间距
plt.show()