《动手学深度学习》书中的简单线性回归模型
from mxnet import autograd,nd
import random
num_inputs = 2
num_examples = 100
true_w = [2,-3.4]
true_b = 4.2
features = nd.random.normal(scale = 1,shape = (num_examples,num_inputs))
labels = true_w[0] * features[:,0] + true_w[1] * features[:,1] + true_b
labels += nd.random.normal(scale = 0.01,shape = labels.shape)
#获取数据集
def data_iter(batch_size,features,labels):
num_examples = len(features)
indices = list(range(num_examples))
random.shuffle(indices)
for i in range(0,num_examples,batch_size):
j = nd.array(indices[i:min(i+batch_size,num_examples)])
yield features.take(j),labels.take(j)
#做点乘运算函数
def lingreg(X,w,b):
return nd.dot(X,w) + b
#平方损失函数
def squared_loss(y_hat,y):
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
#梯度下降
def sgd(params,lr,batch_size):
for param in params:
param[:] = param - lr * param.grad / batch_size
w = nd.random.normal(scale = 0.01,shape = (num_inputs,1))
b = nd.zeros(shape = (1,))
#申请存储梯度内存
w.attach_grad()
b.attach_grad()
#学习率
lr = 0.03
num_epochs = 10
net = lingreg
loss = squared_loss
batch_size = 10
for epoch in range(num_epochs):
for X,y in data_iter(batch_size,features,labels):
with autograd.record():
l = loss(net(X,w,b),y)
l.backward() #反向传播
sgd([w,b],lr,batch_size)
train_l = loss(net(features,w,b),labels)
print('epoch %d , loss %f' % (epoch + 1,train_l.mean().asnumpy()))
print(true_w,w)
print(true_b,b)
最终结果:
- [2, -3.4]
[[ 1.9975952]
[-3.4042914]]
<NDArray 2x1 @cpu(0)>
4.2
[4.1911893]
<NDArray 1 @cpu(0)>
这段代码中,个人觉得比较重要的是sgd函数中的
这块代码。
param[:] = param - lr * param.grad / batch_size
经过本人实验,代码中param[:]写成param程序也是可以运行的,但是输出结果后发现,参数并没有更新。这里的原因,本人认为是因为参数传入到sgd函数后,如果直接使用param = 而不使用param[:] = 会使得param指向新的内存地址,而不是更新原有地址中的值。原有的地址开辟了内存存储梯度值(一般情况下MXnet不会开辟内存存储梯度值),而新的内存地址没有申请空间存储梯度值,所以最后参数没有更新。
最后如果大家有什么不同意见,欢迎在评论区底下留言讨论