tensorflow学习之路(二)numpy中生成随机样本的的常用方法介绍

一、1、numpy中random方法的使用:(用来生成随机样本点)

1、numpy.random.rand(d0, d1, ....dn):

    生成指定形状的数组,其元素值是在均匀分布[0, 1]之间随机生成,其中d0, ...dn表示的是数组的大小(也就是维数,只有一个数字时默认是一维的),如果不指定大小,默认返回一个随机数值。数组默认的返回类型是float.如果指定100,那么返回一个1*100的一维数组。

例如:

  1. w0 = np.random.rand()
  2. print w0, "\n"
  3. w00 = np.random.rand( 2, 3)
  4. print w00, "\n"
  1. 0.528211605811 #0-1之间的随机值
  2. [[ 0.89478507 0.81066081 0.04658165] #0-1之间的随机值
  3. [ 0.88438714 0.76890682 0.86752058]]

2、numpy.random.randn(d0, d1, ...dn):

  从标准正态分布中返回一个随机样本。

<1>、无参数

  1. w1 = np.random.randn()
  2. print w1, "\n"
-0.755503212712 
<2>指定返回样本的大小

  1. w2 = np.random.randn(2, 3)
  2. print w2, "\n"
  1. [[ 0.34894362 -0.90593742 1.41079113]
  2. [ -0.67110078 -0.21309708 1.01333301]]
<3>从指定方差和均值的正态分布中随机生成一个样本:

  样式:

  sigma * numpy.random.randn(d0, ...,dn) + mu

  1. sigma = 1.3
  2. w3 = sigma * np.random.randn( 2, 3)
  3. print w3
  1. [[ 1.12659049 -2.13454097 -0.84336796]
  2. [ -0.00758082 -0.52353856 0.9649422 ]]
3、np.random.randint(0,10,size=3)  #等价于np.random.randint(0,10,3)          #生成0-10的3个随机整数,只有一个数字3表示是生成一个1*3的一维矩阵

array([6, 7, 7])                               #为1*3的矩阵

np.random.randint(0,10,size=(3,3))


Out[351]:                                         
array([[5, 1, 4],

         [2, 8, 4],                                       #为3*3的矩阵                              

         [4, 2, 3]])


5、x=['Python','data','random','Mining','good']
random.shuffle(x)
print (x)
                                                                    
                                                                              # 用于将一个列表中的元素打乱,
['Mining', 'Python', 'random', 'data', 'good']



6、lists=[1,2,3,4,5,6,7,8,10]                                  #从指定序列中随机获取指定长度的片断
a=random.sample(lists,3)
print (a)


[8, 6, 10]

二、numpy中使用linspace方法生成随机样本点

https://docs.scipy.org/doc/numpy/reference/generated/numpy.linspace.html

numpy.linspace(startstopnum=50endpoint=Trueretstep=Falsedtype=None)Parameters(参数): 
start : 序列的起始点.
stop : 序列的结束点
num : 生成的样本数,默认是50。必须是非负。
endpoint : 如果True'stop'是最后一个样本。否则,它不包括在内。默认为True。
retstep :  如果True,返回 (`samples`, `step`)
dtype : 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

第1个例子endpoint的使用:

import numpy as np
print(np.linspace(2.0, 3.0, num=5))
print(np.linspace(2.0, 3.0, num=5, endpoint=True))
print(np.linspace(2.0, 3.0, num=5, endpoint=False))
  • 1
  • 2
  • 3
  • 4

输出:

[ 2.    2.25  2.5   2.75  3.  ]
[ 2.    2.25  2.5   2.75  3.  ]
[ 2.   2.2  2.4  2.6  2.8]
  • 1
  • 2
  • 3

从上面输出可以看出endpoint=True时,输出包含了“stop”这个样本点;endpoint=False时,输出不包括“stop”这个样本点;默认情况endpoint=True。


第2个例子retstep的使用:

import numpy as np

print(np.linspace(2.0, 3.0, num=5))
a = np.linspace(2.0, 3.0, num=5, retstep=True)
print(a)
print(a[0])
print(a[1])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

输出:

[ 2.    2.25  2.5   2.75  3.  ]
(array([ 2.  ,  2.25,  2.5 ,  2.75,  3.  ]), 0.25)
[ 2.    2.25  2.5   2.75  3.  ]
0.25
  • 1
  • 2
  • 3
  • 4

retstep=True时输出了步长(step),此时步长为0.25


第3个例子:

import numpy as np

import matplotlib.pyplot as plt
N = 8
y = np.zeros(N)
x1 = np.linspace(0, 10, N, endpoint=True)
x2 = np.linspace(0, 10, N, endpoint=False)
plt.plot(x1, y, 'o')
plt.plot(x2, y + 0.5, 'o')
plt.ylim([-0.5, 1])
plt.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

输出:

这里写图片描述






  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: TensorFlow的数据生成器通常使用`tf.data.Dataset` API来实现。这个API可以接受多种输入数据格式,例如numpy数组、Pandas数据帧、CSV文件等,并支持数据变换和批处理等操作。 下面是一个简单的示例,演示如何使用`tf.data.Dataset` API创建一个从numpy数组生成数据的生成器: ```python import tensorflow as tf import numpy as np # 创建一个numpy数组 data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) # 使用from_tensor_slices方法创建数据集 dataset = tf.data.Dataset.from_tensor_slices(data) # 对数据集进行批处理 batch_size = 2 dataset = dataset.batch(batch_size) # 创建一个迭代器并获取数据 iterator = dataset.make_one_shot_iterator() next_element = iterator.get_next() with tf.Session() as sess: try: while True: batch_data = sess.run(next_element) print(batch_data) except tf.errors.OutOfRangeError: print("End of dataset") ``` 该示例创建了一个包含4个样本numpy数组,并使用`tf.data.Dataset.from_tensor_slices()`方法将其转换为数据集。然后,它使用`batch()`方法对数据集进行批处理,以便读取一批数据。最后,它创建了一个迭代器并使用`get_next()`方法获取下一个元素。在会话,它迭代数据集并打印每个批次的数据。 ### 回答2: TensorFlow数据生成器是一种用于生成训练和测试数据的工具,它可以帮助我们有效地加载和处理大型数据集。通过使用TensorFlow数据生成器,我们可以在训练期间动态地生成数据,从而减少内存的使用并提高数据处理的效率。 TensorFlow数据生成器可以处理多种数据类型,包括图像、文本、语音等,因此在各种机器学习任务都非常有用。它对于大规模数据是特别适用的,因为它可以将数据切分成小批次,并且可以异步地读取和处理数据,从而提高训练速度。 使用TensorFlow数据生成器的步骤如下: 1. 准备数据集:将数据集准备好,可以是图片文件、文本文件或其他形式的数据。 2. 定义数据生成器:使用TensorFlow的数据生成器API来定义自己的数据生成器函数,该函数负责从数据集读取和处理数据,并将它们转换成TensorFlow可以处理的格式。 3. 构建数据管道:使用TensorFlow的数据生成器API来构建数据管道,该管道负责将生成的数据提供给模型进行训练或测试。可以通过设置参数来控制数据的批次大小、并行性等。 4. 迭代训练数据:使用TensorFlow的迭代器API来迭代数据生成器生成的数据,并将其提供给模型进行训练。在每一次迭代,都会从数据生成器获取一个数据批次,然后进行训练。 总而言之,TensorFlow数据生成器是一个强大且灵活的工具,可以帮助我们高效地处理大型数据集,并在训练过程动态地生成数据。它能够提高训练效率,并减少内存的使用,使我们能够更好地应对各种机器学习任务。 ### 回答3: TensorFlow数据生成器是一种用于生成数据集的方法,它可以在训练模型时动态地产生数据。数据生成器常用于处理大规模数据集或无限数据流的情况下。 数据生成器通常由一个函数或一个类实现,它可以按需生成数据并返回给模型。它可以在每个训练步骤生成新的批次数据,以支持训练过程的数据随机性和变化性。 生成器函数通常使用yield关键字,它可以暂停函数的执行并返回一个生成的数据批次。在下一次调用生成器函数时,它会从上一次的暂停点继续执行,从而生成下一个批次的数据。 在TensorFlow使用生成器可以使用tf.data.Dataset.from_generator函数,该函数接受一个生成器函数作为参数,并返回一个可以迭代的数据集。通过将生成器函数传递给from_generator,我们可以方便地生成包含指定数量或无限数量训练样本的数据集。 使用生成器可以大大节省内存和计算资源,尤其对于大规模数据集或需要动态生成数据的情况下。此外,生成器还可以通过使用多线程或异步操作来提高数据生成的效率。 总之,TensorFlow数据生成器是一种方便、高效的数据处理方法,它可以根据需要生成数据并提供给模型进行训练,同时还可以节省内存和计算资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值