怎么看API源码或者解释案例
-
pycharm : help(function)
-
c 的源码看不懂,可以进到 https://github.com/PaddlePaddle/Paddle/tree/develop/python 这里面,看 Python 代码
cifar-10数据读取器
两种数据读取方法:
#如果~/.cache/paddle/dataset/mnist/目录下没有MNIST数据,API会自动将MINST数据下载到该文件夹下
# 设置数据读取器,读取MNIST数据训练集
trainset = paddle.dataset.mnist.train()
# 包装数据读取器,每次读取的数据数量设置为batch_size=8
train_reader = paddle.batch(trainset, batch_size=8)
paddle.batch函数将MNIST数据集拆分成多个批次 `
但是发现,上述 type(trainset)是“function”,是一个数据读取器(含yield的函数 ),paddle.batch就是对数据读取器的操作-包装,paddle.reader.shuffle()中buf_size的作用
而且此方法只打乱行,也就是不同样本,不打乱列。
https://blog.csdn.net/weixin_43593330/article/details/103444184
如下就可以实现,打扰顺序的数据集取batch
train_reader = paddle.batch(
paddle.reader.shuffle(
reader=reader_createor(data, label),buf_size=200
), batch_size=16)
打乱之后分批次读取
- 遇到的第一个问题:
已经使用了paddle的数据生成器,直接读取划分好的batch,但是需要自行数据类型转换以及、、
mnist 数据类型分析:
- 注意list内数据类型不固定
- 注意list 与array 的区别
- 遇到的第二个问题:
cifar 图像是三通道,但是像素高度,宽度为多少呢?
感谢助教super松的解答:一般读取数据是NCHW
N是batch_size
C是通道数
H、W分别是图像的高和宽
此处,读取的数据是3072=3*32*32
所以图片的大小就是32*32, RGB三通道
- 遇到的第三个问题:
将图像数据reshape为NCHW
将标签数据reshape 为类似列向量的list