(1)python中的关键字yield的作用:
就是 return 返回一个值,并且记住这个返回的位置,下次迭代就从这个位置后开始。
(2)torch中怎么区分行向量和列向量:
如果要区分两者的区别,则必须用矩阵表示,对于计算机来说,单纯的一列或一行都是一个一维数组。从计算机角度就默认理解为 一维数组(这个一维数组可以参与内积运算)。
(3)dataset = data.TensorDataset(*data_arrays)中*的作用
*是元组拆包符号,python基本语法
(4)net = nn.Sequential(nn.Linear(2, 1))
Sequential可以理解成一个list of layers;nn.Linear(2,1)中参数的含义是输入是二维,输出是一维。
PS:线性模型就是全连接层
(5)
net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0):
net[0]就是指容器中的这个线性层(全连接层);.weight是访问y=wx+b中的w,.data.normal_(0, 0.01)是将w初始化为以0为均值、0.01为标准差的数据;.bias是访问y=wx+b中的b
(6)编写sgd函数的时候要注意:with torch.no_grad():
忘记写 with torch.no_grad(): 会报错:a leaf Variable that requires grad is being used in an in-place operation.
为什么么呢?——计算图会构成回路,然而回路在计算图中是不允许的
PS:
(i)a=a+b 和 a+=b的区别:
对于不可变对象, a+=b
就是 a=a+b
的简单写法,比如数字,字符串,元组。请注意,元组也是可以 a+=b
、a=a+b
的哦,元组的不可变,指的是这个元组指向的对象不可变,但是元组变量却是可以指向新的元组的。
对于可变对象,a+=b 在 a 的基础上进行自增,不创建新对象,而a=a+b,创建了新的对象,然后再让变量 a 指向这个新创建的对象,涉及创建对象的操作,因此性能较差。可变对象有列表,字典,集合,类似的,a=ab与 a=b 也是一样的,不过只有列表才支持 + 和* 这种运算符。
(ii)grad的传递性:
tensor的requires_grad的属性默认为False,若一个节点(叶子变量:自己创建的tensor)requires_grad被设置为True,那么所有依赖它的节点requires_grad都为True(即使其他相依赖的tensor的requires_grad = False)