预处理数据集时遇到的问题

最新推荐文章于 2023-01-13 16:51:35 发布

不断冲的Castor

最新推荐文章于 2023-01-13 16:51:35 发布

阅读量1k

点赞数 2

分类专栏： tensorflow学习 # tf2碰到的问题

本文链接：https://blog.csdn.net/coolyuan/article/details/104251583

版权

tensorflow学习同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

tf2碰到的问题

3 篇文章 0 订阅

订阅专栏

以MNIST数据训练集为例，
本人在将数据集切片后，发现batch（实现数据的分批），map（对一个序列的每一个元素用一个function处理，形成一个新序列）对一个对象的作用位置不能随意摆放，还与map中的function有关系。
例子：

def preprocess(x, y):
    x = tf.cast(x, dtype=tf.float32)/255.
    x = tf.reshape(x, [-1, 28 * 28])
    y = tf.cast(y, dtype=tf.int64)
    y = tf.one_hot(y, depth=10)
    return x, y


batchsize = 128
train_db = tf.data.Dataset.from_tensor_slices((x, y))
train_db = train_db.shuffle(60000).batch(batchsize).map(preprocess)

上述例子先进行数据打包，再对数据用map方法的函数处理，所以使用map处理时对象已经打包完（x的shape 为[128,28,28]),因此在运行preprocess时要注意此时的x在运行reshape时不能直接使用[2828]完成降维，**而应该使用[-1,2828]实现降维**。
另一个是先对数据用map方法的函数处理，再打包数据，代码如下：

def preprocess(x, y):
    """
    x is a simple image, not a batch
    """
    x = tf.cast(x, dtype=tf.float32) / 255.
    x = tf.reshape(x, [28*28])
    y = tf.cast(y, dtype=tf.int32)
    y = tf.one_hot(y, depth=10)
    return x,y
    
    batchsize = 128
    train_db = tf.data.Dataset.from_tensor_slices((x, y))
	train_db = train_db.map(preprocess).shuffle(60000).batch(batchsize)

此时map的对象直接是切片完的数据集，即60000个[28，28]的图片，因为还未打包，因此此时的（x，y）只是一张图片和一个标签。所以function中对x进行reshape应该是使用[28*28]实现降维。

不断冲的Castor

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
预处理数据集时遇到的问题

以MNIST数据训练集为例，本人在将数据集切片后，发现batch（实现数据的分批），map（对一个序列的每一个元素用一个function处理，形成一个新序列）对一个对象的作用位置不能随意摆放，还与map中的function有关系。例子：def preprocess(x, y): x = tf.cast(x, dtype=tf.float32)/255. x = tf.resh...
复制链接

扫一扫

专栏目录