2.何为张量

张量

  1. 关键属性

    • 轴的个数(阶)

      例如,3D张量有3个轴,矩阵有2个轴。这在Numpy等Python库中也叫张量的ndim。

    • 形状

      这是一个整数元组,表示张量沿每个轴的维度大小(元素个数)。例如,前面矩阵示例的形状为(3,5),3D张量示例为(3,3,5)。向量的形状只包含一个元素,比如(5,),而标量的状态为空,即()。

    • 数据类型(在Python库中通常叫做(dtype)

      这是张量中所包含堵数据的类型,例如张量的类型可以是float32,uint8,float64等。

    具体说明:

    • 首先加载MNIST数据集

      form keras.datasets import mnist
      
      (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
      
    • 张量train_images的轴个数,即ndim属性

      >>> print(train_images.ndim)
      3
      
    • 张量train_images形状,即shape属性

      >>> print(train_images.shape)
      (60000,28,28)
      
    • 数据类型,即dtype属性

      >>> print(train_images.dtype)
      uint8
      

      由以上可以得出,train_images是一个由8位整数组成的3D张量。

      更确切的说,它是60000个矩阵组成的数组,每个矩阵由 28×28 个整数组成。每个这样的矩阵都是一张灰度图像,元素组成范围位 0~255。

    • 显示数字

      首先要加载MNIST数据集

      import keras.datasets import mnist
      
      (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
      

      使用matplotlib画数字

      digit = train_image[4]
      
      import matplotlib.pyplot as plt
      plt.imshow(digit, cmap=plt.cm.binary)
      plt.show()
      

      显示如下

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mYRinB3l-1658044291225)()]

  2. 类型

    • 标量(0D张量)

      仅包含一个数字的张量叫做标量(scalar)。

    • 向量(1D张量)

      数字组成的数组叫做向量(vector)。

    • 矩阵(2D)张量

      向量组成的数组叫做矩阵(matrix)。

    • 3D张量与更高维张量

      将多个矩阵组合成一个新的数组就,可以得到一个3D张量,可以直观地理解为一个立方体。

      将多个3D张量组成一个数组可以创作一个4D张量,以此类推。

  3. 数据张量

    • 向量数据

      • 2D张量,形状为(samples,fetures)。
      • 对于这种数据集,每个数据点都被编码为一个向量,其中第一个为样本轴即samples,第二个轴为特征轴即fetures
      • 举例:
        • 统计人口数据集,每个人的信息包含每个人的年龄、邮编和收入。每个人可以表示包含三个值的向量,而整个数据集包含100000个人,因此可以存储在形状为(100000,3)的2D向量中。
        • 文本文档数据集,我们将每个文档表示为每个单词在其中出现的次数(字典中包含20000个常见单词)。我们每个文档可以被编码为包含20000个值的向量(每个值对于于字典中每个单词出现的次数),整个数据集包含500个文档,因此可以存储在形状为(500,20000)的张量中。
    • 时间序列数据序列数据

      • 3D张量,形状为(samples,timesteps,fetures)。
      • 时间或序列顺序对数据很重要是,应该将数据存储在带有时间轴的3D张量中。根据惯例,时间轴始终是第二个轴。
      • 样本轴samples,时间轴timesteps,特征轴feture。
      • 举例:
        • 股票价格数据集。每一分钟,我们将股票的当前价格、前一分钟的最高价格和前一秒钟的最低价格保存下来。因此每分钟被编码为一个3D向量整个交易日被编码为一个形状为(390,3)的2D张量(一个交易日有390分钟),而250天的数据则可以保存在一个形状为(250,390,3)的3D张量中。这里每个样本都是一天的股票信息。
        • 推文数据集。我们将每条推文编码为280个字符组成的序列,而每个字符又来自于128个字符组成的字母表。在这种情况下,每个字符可以被编码为大小为128的二进制向量(只有在该字符对应的索引位置取1,其他元素都为0)。那么每条推文可以被编码为一个形状为(280,128)的2D张量,而包含100万条推文的数据集则可以存储在一个形状为(1000000,280,128)的张量中
    • 图像

      • 4D张量,形状为(samples,height,width,channels)或(samples,channels,height,width)。
      • 图像通常具有三个维度:高度、宽度和颜色深度
      • 虽然灰度图像只有一个颜色通道,因此可以保存在2D张量中,但按照归案例,图像张量始终都是3D张量,灰度图像的色彩通道只有一维。因此如果图像大小为256×256,那么128张灰度图像组成的批量可以保存在一个形状为(128,256,256,1)的张量中,而128张彩色图像组成的批量可以保存在一个形状为(128,256,256,3)的张量中。
      • 图像张量的形状有两种约定:**通道在后(channels-last)**的约定(**在 TensorFlow 中使用)通道在前(channels-first)**的约定(在Theano中使用)。
      • 形状也可写成(samples,height,width,color_depth) color_depth是颜色通道
    • 视频

      • 5D张量,形状为(samples,frames,height,width,channels)或(samples,frames,channles,height,width)。

      • 视频可以看作一系列帧,每一帧都是一张彩色图像。由于每一帧可以保存在一个形状为(height,width,color_depth)的3D张量中,所以一系列帧可以保存在一个形状为(frames,height,width,color_depth)的4D张量中。(freames为帧率的意思)。而不同视频组成的批量则可以保存在一个5D张量中,其形状为

        (samples,frames,height,width,color_depth)。

      • 举例:

        • 一个以每秒4帧采样的60秒的视频片段,其视频尺寸为144×256,这个视频总共有240帧。4个这样的视频片段组成的批量将保存在形状为(4,240,144,256,3)的张量中。总共106168320个值。如果张量的数据类型为(dtype)为float32,每个值都是32位,那么这个张量共有405MB。现实中的视频不以float32格式存储,而是被大大压缩。
          这样的视频片段组成的批量将保存在形状为(4,240,144,256,3)的张量中。总共106168320个值。如果张量的数据类型为(dtype)为float32,每个值都是32位,那么这个张量共有405MB。现实中的视频不以float32格式存储,而是被大大压缩。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值