一个入门语音分离小菜鸡的日记
写此文的目的是记录自己的学习过程,一些经过,遇到问题以及解决问题的方法,存放在这里,方便自己以后复习以及自己的一些总结,如果此文对你有帮助,或者我写的有错误,请随时联系我。
https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html#sphx-glr-beginner-blitz-cifar10-tutorial-pypytorch.org放上官方链接。
数据呢?
通常,当您必须处理图像,文本,音频或视频数据时,可以使用将数据加载到numpy数组中的标准python包。然后,您可以将此数组转换为torch.*Tensor
。
- 对于图像,Pillow,OpenCV等软件包很有用
- 对于音频,请使用scipy和librosa等软件包
- 对于文本,基于Python或Cython的原始加载,或者NLTK和SpaCy很有用
具体地,对于视觉,我们已经创建了一个叫做 torchvision
,其中有对普通数据集如Imagenet,CIFAR10,MNIST等和用于图像数据的变压器,即,数据装载机 torchvision.datasets
和torch.utils.data.DataLoader
。
这提供了极大的便利,并且避免了编写样板代码。
在本教程中,我们将使用CIFAR10数据集。它具有以下类别:“飞机”,“汽车”,“鸟”,“猫”,“鹿”,“狗”,“青蛙”,“马”,“船”,“卡车”。CIFAR-10中的图像尺寸为3x32x32,即尺寸为32x32像素的3通道彩色图像。
![636dfbbb9dbf69b5f011ee4fe6a7cb3b.png](https://img-blog.csdnimg.cn/img_convert/636dfbbb9dbf69b5f011ee4fe6a7cb3b.png)
训练图像分类器
我们将按顺序执行以下步骤:
- 使用以下命令加载和标准化CIFAR10训练和测试数据集
torchvision
- 定义卷积神经网络
- 定义损失函数
- 根据训练数据训练网络
- 在测试数据上测试网络
1.加载并标准化CIFAR10
使用torchvision
,加载CIFAR10非常容易。