Pytorch v0.1.12版本发布,添加CUDA的Sparse支持

最新推荐文章于 2024-06-02 12:49:05 发布

weixin_33974433

最新推荐文章于 2024-06-02 12:49:05 发布

阅读量626

点赞数

文章标签： python 人工智能

原文链接：https://my.oschina.net/earnp/blog/1341361

版权

为什么80%的码农都做不了架构师？>>>

API更改

torch.range被弃用，赞成torch.arange与numpy和python范围一致。
在稀疏的传感器上，contiguous更名为现在，coalesce并且coalesce现在已经不合适。（提醒Sparse API仍然是实验性和演进性的，所以我们不提供后向兼容性）。

新功能

新层次和功能

torch.topk现在支持所有CUDA类型，不只是torch.cuda.FloatTensor。
增加了三路排名丢失：nn.TripletMarginLoss 添加每个实例规范化层：nn.InstanceNorm1d，1. nn.InstanceNorm2d，nn.InstanceNorm3d 每个通道被视为一个实例进行归一化，并且均值减去和标准化完成。当处理较大的图像和更小的迷你批次时，这对BatchNorm喜欢效果是有用的。
nn.ZeroPad2d并nn.ConstantPad2d添加。
nn.Bilinear 被添加，它计算 Y = X1 W X2 + b

负尺寸将从最后一维度索引张量。

使用维度参数的每个单个函数也将允许采取负面维度。

负尺寸将从最后一维度索引张量。

例如：

x = torch.randn(10, 20, 30)
y = torch.mean(x, dim = -1)

在这里，由于x具有3个维度，而dim = -1是最后一个维度，即dim=3采取平均值。

具有维参数的函数是：

narrow, transpose, size, cat, chunk, gather, index_select, split, squeeze,
stack, unbind, unsqueeze, cumprod, cumsum, mean, median, mode, norm, prod, std,
sum, var, kthvalue, max, min, sort, topk, renorm,
index_add, index_copy, index_fill, scatter, select, unfold

CUDA支持sparse传感器，CPU速度更快

现在torch.sparse也支持API 的一部分torch.cuda.sparse.*Tensor。

CUDA支持的功能有：

sparse_mask, to_dense, coalesce, transpose, spaddmm
spcadd, mul, div, cadd, csub, cmul

nn.Embedding现在支持sparse，即使在使用sparse=True这些sparse函数的CUDA（带标志）上也是如此。

一种新的混合矩阵乘法hspmm运算，将sparse矩阵与密集矩阵相乘，并以混合张量（即1个sparse维度，1个dense维度）的形式返回一个矩阵。

几个CPU稀疏函数具有更高效的实现。

在一个很快被黑客入侵的@martinraison嵌入分类器训练脚本我们看到CUDAsparse表现以及CUDA密集：https : //gist.github.com/martinraison/1e7c18c6f6eda87f1cb4995b0e6a22a5

不同处理时间对比：

CPU CUDA
Dense 10 0.86
Sparse 0.15 0.13

CPU	CUDA
Dense	10	0.86
Sparse	0.15	0.13

named_parameters来过滤特定的参数类型

假设您想为模型的所有参数添加重量衰减，除了偏差。您如何只获得模型的偏见？为此引入了nn.Module.named_parameters。它加入named_children并named_modules帮助您过滤模型的特定属性。

过滤模型的偏差并给它们weight_decay为0的示例：

import torch
import torch.nn as nn
import torch.optim as optim
m = nn.Sequential(
      nn.Linear(10, 20),
      nn.ReLU(),
      nn.Linear(20, 20),
      nn.ReLU(),
    )
weights, biases = [], []
for name, p in m.named_parameters():
   if 'bias' in name:
       biases += [p]
   else:
       weights += [p]

optim.SGD([
  {'params': weights},
  {'params': biases, weight_decay=0}
], lr=1e-2, momentum=0.9, weight_decay=1e-5)

性能改进

cumsum并且cumprod在适当的情况下通过使用某些推力原语在GPU上显着加快。
LSTMCell并且GRUCell现在在GPU上通过融合内核显着更快
CuDNN的默认算法已经更改，PRECOMP_GEMM这是一个更快的算法，需要一小部分工作空间。以前，它曾经是IMPLICIT_GEMM零工作空间，但是显着较慢。
通过将批次直接整理到共享内存中，数据加载器的5％至10％的改进。
现在，SVD通过分频（sgesdd）在GPU上进行计算，可以提供2x至5x的加速。
常用的功能expand已被移至C，以便在较小型号中具有更好的性能。