关于为何要带上负号:
该点所处斜率大于0,为了寻找最优点应该朝负方向移动,所以取负号
当斜率小于0时,应朝正方向移动,取负号
局部最优点:
当该点到达下方后,想继续沿正方向运动,但是由于斜率大于0,又会让它沿负方向运动,最终导致该局部点成为局部最优点。
鞍点:
该点下降到水平方向,此时梯度为0,根据公式w=w-α*g(g为梯度,即斜率)可知w=w-0,将不会再发生移动
梯度下降算法简单应用:
首先对斜率进行求导展开,
损失值同上节,对w求导,过程不用多说,然后将该表达式代入原式。
关于此处的梯度下降函数,可知w会不断变化,从而导致MSE也会随着发生改变,需要寻找的是一个能使MSE最小的w值。
# 梯度下降
import matplotlib.pyplot as plt
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = 1.0 # 初始权重猜测
# 前馈模型
def forward(x):
return x * w
# 计算MSE
def cost(xs, ys):
cost = 0
for x, y in zip(xs, ys):
y_pred = forward(x)
cost += (y_pred - y) ** 2
return cost / len(xs) # 求均值
# 计算梯度
def gradient(xs, ys):
grad = 0
for x, y in zip(xs, ys):
grad += 2 * x * (x * w - y)
return grad / len(xs)
# 存放次数和损失
epoch_list = []
cost_list = []
print('predict (before training)', 4, forward(4))
for epoch in range(100):
cost_val = cost(x_data, y_data)
grad_val = gradient(x_data, y_data)
w -= 0.01 * grad_val # 0.01为学习率
print('epoch:', epoch, 'w=', w, 'loss=', cost_val)
epoch_list.append(epoch)
cost_list.append(cost_val)
print('predict (after training)', 4, forward(4))
plt.plot(epoch_list, cost_list)
plt.ylabel('cost')
plt.xlabel('epoch')
plt.show()
随机梯度下降:
随机选取一个损失值计算。
#随机梯度下降
import matplotlib.pyplot as plt
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = 1.0
#前馈模型
def forward(x):
return x * w
#计算MSE
def loss(x, y):
y_pred = forward(x)
return (y_pred - y) ** 2
#计算梯度
def gradient(xs, ys):
return 2 * x *(x*w - y)
#存放次数和损失
epoch_list = []
cost_list = []
print('predict (before training)', 4, forward(4))
for epoch in range(100):
for x, y in zip(x_data, y_data):
grad = gradient(x, y)
w -= 0.01 * grad #0.01为学习率
l = loss(x, y)
print('epoch:', epoch, 'w=', w, 'loss=', l)
epoch_list.append(epoch)
cost_list.append(l)
print('predict (after training)', 4, forward(4))
plt.plot(epoch_list, cost_list)
plt.ylabel('cost')
plt.xlabel('epoch')
plt.show()
梯度下降和随机梯度下降比较:
两者各有优点,(Mini)Batch梯度下降,抽取一组。