tensorflow中如何自定义自己的数据集---使用tf.data.DatasetAPI

tf.data API 引入了一个 tf.data.Dataset 抽象,它表示一个元素序列,其中每个元素都由一个或多个组件组成。

tf.data可以读取多种文件,然后生成数据:文本文件、tfrecords等

dataset = tf.data.TextLineDataset(["file1.txt", "file2.txt"])

dataset = tf.data.TFRecordDataset(["file1.tfrecords", "file2.tfrecords"])


dataset = tf.data.Dataset.list_files("/path/*.txt")
​

使用tf.data.Dataset.from_tensor_slices((x,y))生成数据集,传入一个元组;

dataset = tf.data.Dataset.from_tensor_slices([8, 3, 0, 8, 2, 1])
for item in dataset:
    print(item.numpy())

读入数据:

(1)使用numpy数组:

train, test = tf.keras.datasets.fashion_mnist.load_data()
images, labels = train
images = images/255

dataset = tf.data.Dataset.from_tensor_slices((images, labels))
dataset

注:上面的代码段会将 features 和 labels 数组作为 tf.constant() 运算嵌入到 TensorFlow 计算图中。这对于小数据集来说效果很好,但是会浪费内存(因为数组的内容会被多次复制),并且可能会达到 tf.GraphDef 协议缓冲区的 2GB 上限。

(2)使用python生成器:

def count(stop):
  i = 0
  while i<stop:
    yield i
    i += 1

"""
for n in count(5):
  print(n)

"""

#定义生成器:
ds_counter = tf.data.Dataset.from_generator(count, args=[25], output_types=tf.int32, output_shapes = (), )

for count_batch in ds_counter.repeat().batch(10).take(10):
  print(count_batch.numpy())

Dataset.from_generator 构造函数会将 Python 生成器转换为具有完整功能的 tf.data.Dataset

构造函数会获取可调用对象作为输入,而非迭代器。这样,构造函数结束后便可重启生成器。构造函数会获取一个可选的 args 参数,作为可调用对象的参数。

output_types 参数是必需的,因为 tf.data 会在内部构建 tf.Graph,而计算图边缘需要 tf.dtypeoutput_shapes 参数虽然不是必需的,但强烈建议添加,因为许多 TensorFlow 运算不支持秩未知的张量。如果特定轴的长度未知或可变,请在 output_shapes 中将其设置为 None

(3):使用TFRecord:

tf.data API 支持多种文件格式,因此可以处理不适合存储在内存中的大型数据集。例如,TFRecord 文件格式是一种简单的、面向记录的二进制格式,许多 TensorFlow 应用都将其用于训练数据。您可以利用 tf.data.TFRecordDataset 类将一个或多个 TFRecord 文件的内容作为输入流水线的一部分进行流式传输。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是使用最新版本的Tensorflow实现自定义Tensorflow层的k-means示例: ```python import tensorflow as tf class KMeans(tf.keras.layers.Layer): def __init__(self, k, **kwargs): self.k = k super(KMeans, self).__init__(**kwargs) def build(self, input_shape): # 初始化聚类心 self.centers = self.add_weight(name='centers', shape=(self.k, input_shape[-1]), initializer='random_normal', trainable=True) def call(self, inputs): # 计算输入与聚类心的欧式距离 distances = tf.reduce_sum(tf.square(tf.expand_dims(inputs, axis=1) - self.centers), axis=2) # 找到距离最近的聚类心 cluster_indices = tf.argmin(distances, axis=1) # 返回聚类心和聚类结果 return [self.centers, cluster_indices] def compute_output_shape(self, input_shape): return [(self.k, input_shape[-1]), (input_shape[0],)] # 创建模型 inputs = tf.keras.layers.Input(shape=(10,)) kmeans = KMeans(4) centers, cluster_indices = kmeans(inputs) outputs = tf.keras.layers.Concatenate()([centers, tf.one_hot(cluster_indices, 4)]) model = tf.keras.models.Model(inputs=inputs, outputs=outputs) # 编译模型 model.compile(optimizer='adam', loss='kld', metrics=['accuracy']) # 训练模型 model.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test)) ``` 在这个例子,我们定义了一个名为KMeans的自定义层。在build方法,我们使用随机正态分布初始化了聚类心,并将其设置为可训练的权重。在call方法,我们计算了输入数据与聚类心之间的欧式距离,并返回了聚类心和每个输入数据所属的聚类结果。在compute_output_shape方法,我们指定了输出的形状。 然后,我们将KMeans层应用于一个输入数据,将聚类心和聚类结果连接在一起,并构建了一个包含输入和输出的完整模型。最后,我们编译了模型并训练了它。 请注意,此代码的参数和数据需要根据您的具体情况进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值