在看李沐的多层感知机从零开始实现时,会发现如果在pycharm上按照视频的代码敲出来,loss曲线出不来:
这时候我们需要对w1和w2进行一下更改,改成如下:
w1 = torch.normal(0,0.01,(num_inputs,num_hiddens),requires_grad=True)
w2 = torch.normal(0,0.01,(num_hiddens,num_outputs),requires_grad=True)
其他的都不需要修改,只改这两个人权重矩阵就可以,loss曲线就出来了,至于为什么,我也不太清楚,等以后搞明白了再来更新。
还有一个问题就是程序运行完毕后,画的图会突然自动消失。
这是因为在jupyter上可以正常显示,而在pycharm上,需要在所有代码后面加上一句:d2l.plt.show()。
接下来看运行结果:
完整代码如下:
import torch
from torch import nn
from d2l import torch as d2l
batch_size = 256
train_iter ,test_iter = d2l.load_data_fashion_mnist(batch_size)
num_inputs ,num_outputs, num_hiddens = 784, 10,256
""""
requires_grad=True:当前量是否需要在计算中保留对应的梯度信息,以线性回归为例,容易知道权重w和偏差b为需要
训练的对象,为了得到最合适的参数值,我们需要设置一个相关的损失函数,根据梯度回传的
思路进行训练。
"""
# w1 = torch.randn(num_inputs,num_hiddens,requires_grad=True)
w1 = torch.normal(0,0.01,(num_inputs,num_hiddens),requires_grad=True)
b1 = torch.zeros(num_hiddens,requires_grad=True)
# w2 = torch.randn(num_hiddens,num_outputs,requires_grad=True)
w2 = torch.normal(0,0.01,(num_hiddens,num_outputs),requires_grad=True)
b2 = torch.zeros(num_outputs,requires_grad=True)
params = [w1,b1,w2,b2]
def relu(X):
return torch.max(X,torch.zeros_like(X))
def net(X):
X = X.reshape((-1,num_inputs))
H = relu(X @ w1 + b1)
return (H @ w2 +b2)
loss = nn.CrossEntropyLoss()
num_epochs ,lr = 10,0.1
updater = torch.optim.SGD(params,lr=lr)
d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,updater)
d2l.plt.show()